疫情防控下的数据中心运维该何去何从?


2022-05-27



5月由中国通信企业协会云数据专委会组织召开的“云数委论坛”在线上正式召开,活动主要针对数据中心如何提防聚集性疫情?如何在疫情管控园区封闭管理条件下,以最少的人员实现数据中心的正常运维与管理?



在疫情防控的过程中的几点经验供行业参考:



一是要积极认识到疫情防控工作是涉及到数据中心园区的公共卫生安全和人员管理的重要环节。在管理上,和传统的维护以及系统监控运行工作有着很大差别。细枝末节的管理工作非常庞杂、繁琐,极易出现隐患和漏洞。首先要在制度完善和执行落地中严格遵循,慎之又慎,严之又严,不得有任何麻痹思想、抵触情绪。要尊重科学规律,规避一切可能的风险,补齐园区管理中的短板。园区环境消杀及时做,进出入物资消杀及时做,把住关口才能防止病毒的侵入。



二是基础管理要打牢,早着手早准备,在执行中要严格履责尽责。例如,人员的来访、进出,涉及在建工程项目的施工和设备厂家安装,货物进出运输等环节,运行中的设备原厂巡检检修等人员,验码核查是非常繁琐的工作,需要重复重复再重复。但流调信息的登记管理必须做到心中有数,能及时溯源和排查,末端的管理人员、行政安保人员的责任要压实,只说不做就容易出严重的纰漏。物资能提前准备的需提早准备,备件能早到位的早入库,心中有数、心里不慌,交通物流、封控措施等各种极端情况都会影响故障抢修的进度和出现安全责任事故。



三是确保自身运维团队人员的健康安全是首当其冲的要务。严格参加核酸筛查,保持绿码,出现密接人员及时隔离转运。在持续的疫情管控下,维护人员压力陡增,持续驻厂、少轮休和人员减员不能轮休带来的长时间疲劳和精神压力过大等问题。运维经理要做好心理疏导和员工关心关爱工作,团队身强体健、心态稳定,避免疲劳上岗,避免人为失误。



四是一体化运维调度,特殊时期的专业调配和支援人员早做储备和预案。在同一园区不同局房楼之间、同一驻地不同园区之间、不同城市园区之间,以及与本部ECC之间,要能形成及时的人员补充梯队和专业间的补台+远程技术指导。运维人员一旦切断流动性,无法倒班,驻厂员工任务压力将非常巨大。虽有智能监控和各类动环、自控、楼控系统,但在这个过程中,远程技术支持能解决的问题非常有限,就需要数据中心基础设施维护专业(电气、暖通、弱电、安消防等)、IT硬件维护和网络交换专业的专业工程师、巡检监控班组人员能及时互补,相互协作。在最特殊的严重减员时刻,能熟知各专业最基本的作业指导规程操作,在生产运行上要能以最低人员配置模型进行生产保障,甚至低于标准人员配置模型的特殊情况下能抗住更多时长的运行。能满足生产需求,多进行技术岗位交叉调配、作业磨合,人员复用。



自新冠疫情爆发以来,云服务使用量均以倍数级大幅提升,使得服务器计算、存储和网络资源的需求急剧上升。数据中心管理人员的任务是维持数据中心正常运行和提高可用性,以提供给此刻所急需的网络和计算服务。然而,数据中心管理人员对停电或极端天气事件等各种灾难有明确的应急预案,但前所未有的新冠疫情为数据中心运维工作提出了更高的新要求。



 



高规格的硬件,是否能确保数据中心的安全运维?根据Uptime Institute统计数据显示,数据中心七成的事故都是人为因素造成的。人为因素属于数据中心运维管理范畴。数据中心运维管理包括运维组织、运维基本制度、运维流程和运维价值提升等。而运维流程又包括事件管理、问题管理、变更管理、维护管理、故障管理、场地配置管理、设备生命周期管理、应急管理、质量管理、成本管理和安全管理等。也许你会认为运维管理上的疏忽,也许没什么影响。毕竟大部分数据中心配电系统是2N架构,通过高冗余可以使可用性达到4个9以上。然而,没有经过系统培训的运维工程师在应急处置情况下容易犯错,就可能导致停电宕机。宕机意味着什么?对于金融等特定行业而言,就是以秒计算的损失,时间就是金钱。



在整个数据中心生命周期中,数据中心运维管理是历时最长的一个阶段。运维管理是数据中心业务的重中之重,然而,在实际工作中却有诸如人才、技术、需求等多重阻碍因素,极大地影响了运维管理的工作效率。数据中心市场近年来蓬勃发展,数据中心服务商对专业化人才的需求量迅速扩大,专业化人才供不应求的矛盾十分突出。



一方面,行业迅速发展,新技术快速更新,而部分早期从业人员知识结构老化,缺乏业内相关专业资质认证,以至于部分人员不适应新的行业环境要求;



另一方面,新增人才补给速度跟不上行业快速发展形势。数据中心服务商如无法招聘到合适的专业化人才,势必对其数据中心运营产生不利影响。



如此看来,经验丰富的数据中心运维团队价值日益凸显,上海世纪互联数据中心因其数十九年服务客户而积淀的丰富行业经验,对其疫情常态化形势下的运维工作起到了关键性作用。