【公司新闻】韩国数据中心火灾初步调查结果出炉,谁来保佑IDC?


2022-10-18



10月15日,位于韩国首尔南部板桥(Pangyo)的SK CC数据中心发生火灾,导致韩国主要通讯和互联网门户的服务中断一天,影响到该国包括金融和交通运输在内的几乎所有部门。

据韩联社报道,着火的大楼为韩国两大科技巨头Naver和Kakao的数据中心,占地66,942平方米,建于2014年。火灾发生后数据中心出于安全考虑,采取了断电策略。

 

大火导致的部分服务中断延续到了第二天。Naver由于拥有异地备份,因此在服务中断的几小时后就得以恢复服务。而Kakao未能确保其数据得到正确备份,大量的数据无法在短时间内得到恢复。KakaoTalk是韩国最受欢迎的移动通讯工具,在该国每月有4300万活跃用户,全球有5300万活跃用户。

10月17日电 据韩联社报道,韩国警方和消防部门表示,经调查,初步研判SK公司C&C板桥数据中心15日失火是电气因素导致电气设备室电池周围起火所致。

据报道,这一结论由京畿南部警察厅科学搜查队和消防部门相关人士10多人组成的鉴定组,于16日上午10时30分许至11时40分许对该数据中心进行第一次勘查后得出。鉴定组重点对SK公司C&C板桥数据中心A栋地下三层的电气设备室进行勘查。据悉,电气设备室内部有保管电池的机架,事发时其中5个机架产生火花并冒烟。

警方表示,经调查发现,安装在地下三层电气设备室的5个电池机架全部烧毁,电池和机架附近似乎因电气因素失火。

鉴定组将考虑电池和机架本身缺陷、围配电线出问题等可能性,继续查明具体原因。警方计划于17日上午与国立科学搜查研究院、消防部门、电气安全公社等有关部门进行联合调查。

 

无论是自然灾害也好,人为火灾也罢,谁都无法预知意外的发生。

 

2008年3月,美国威斯康辛数据中心被火烧得一塌糊涂。根据事后统计,这次大火已经烧掉了75台服务器、路由器和交换机,当地大量的站点都瘫痪。

2009年7月,位于西雅图的Fisher Plaza数据中心的变压器起火引发火灾。此次火灾影响甚大,造成了包括微软Bing Travel、Authorize.net、Redfin、Big Fish Games、Survey Analytics等网站服务器的中断运行

2014年7月,重庆农商行数据中心发生重大火灾,整个机房全部烧毁,据估计造成直接损失达到一个亿以上。

2015年10月,Windows Azure上海数据中心发生故障,是由服务器所在机房着火断电引起,导致Azure基础设施离线无法提供正常服务,受影响的用户包括金融、互联网、房地产等行业。

2017年6月,巴中地区某中国铁通机房起火,现场浓烟滚滚,经过近一个小时紧张扑救,火灾才被彻底扑灭。

2017年4月,北京邮电大学网络数据中心突发火灾。起火原因系UPS蓄电池组故障引起。由于北邮的网络信息中心机房是北京多所高校的校园网上游节点机房,此次起火导致包括中国政法、北京理工、北航等多所北京高校网络崩溃。

2018年8月,东京某建筑发生火灾,该建筑为建设中的亚马逊AWS东京数据中心。起火是由于聚氨酯保温材料被乙炔气火炬上落下的火花引起。大火燃烧了八个小时,导致五人死亡,五十人受伤,烧毁了大约三分之一建筑物!

2018年11月,韩国三大电信运营商之一KT位于首尔市中心的大楼发生火灾,事故原因为地下电缆隧道起火。火灾烧毁16.8万股电话线和220套光缆。由于通信设备受损,此次事故导致韩国的警察、医院、金融等社会基础设施被迫停转。

2019年7月,某地市的一家移动公司大楼机房失火,现场浓烟滚滚,火情严重。该大楼地处市中心,是这个地市移动较大的机房,下面的营业厅也曾经是最大的营业厅。


 

2020年8月,澳洲电信Telstra位于英国首都伦敦的托管数据中心由于UPS故障引起火灾并引起宕机。当地消防部门共调集了4辆消防车和25名消防员到场救援。

2021年3月,欧洲云计算巨头 OVH 位于法国斯特拉斯堡的机房发生严重火灾,其中一个数据中心被完全烧毁,另有一个数据中心的建筑物部分受损,当时导致其464,000个不同域的360个网站下线。

 

上海世纪互联在上海运维管理着多家中高端机房,完整的基础设施与动环监控系统,规范的运维管理体系,确保了上海世纪互联近二十年的安全专业运维记录,是上海世纪互联成为IDC行业内优质运营商的底气。

如何做好机房的防火及数据灾备工作?我们结合《信息安全技术 网络安全等级保护基本要求》(GB/T 22239-2019)及实际测评要求,建议如下

防火要求

以等保第三级安全要求为例,防火要求:

机房内设置火灾自动消防系统,可以在发生火灾时,自动检测、报警并灭火,如自动气体消防系统、自动喷淋消防系统。使用相应耐火等级的建材。耐火建材可以有效阻止火灾的发生和蔓延。对机房进行区域划分并设置隔离防火措施。区域划分可以很好地阻止火势蔓延,避免造成更多损失。温湿度要求

除了防火措施本身,机房的温湿度也影响防火工作。根据《基本要求》温湿度控制要求:

应设置温湿度自动调节设施,使机房温湿度的变化在设备运行所允许的范围之内。实际操作中,机房内需要安装空调、除湿机、通风机等设备,使机房内的温湿度变化保持在适宜范围内。通常机房内适宜的温度18~27℃,空气湿度35~75%。

安全运维-环境管理

做好硬件设备准备工作后,日常运维中也很重要,应做到:

应指定专门的部门或人员负责机房安全管理维护工作;对机房出入进行管理、登记,记录包括来访人员、来访时间、离开时间、携带物品等;定期对机房供配电、空调、温湿度控制、消防等设施进行维护管理,并做好维护信息记录。数据备份与恢复

做好预防管理,不意味着可以一劳永逸,灾难的发生往往是不可预测无法阻挡,而数据备份工作是信息系统正常运行使用的最重要保障。数据备份工作应做到:

对重要数据库的本地数据做每天全量备份(或每天增量备份,定期全量备份),定期测试备份数据是否正常可用;应该建设灾备中心,对重要数据提供异地数据备份,保证本地系统发生灾难后不可恢复时,能利用异地备份对数据进行恢复;对重要业务数据处理系统,应当提供热冗余,当发生灾难时可以迅速切换至备用系统,保证业务系统的正常使用。数据备份的类型、储存介质、周期各有不同,可以根据自身的业务状况、重要性、成本等因素选择适合的模式。

应急预案与应急演练

建议根据不同的火灾风险场景(如UPS、供电线路、柴油发电机失火等),分别制定切实可行的应急预案,并按照桌面演练、模拟演练、实战演练逐步开展应急演练,确保应急预案可靠有效。并定期根据情况进行修订和演练。

总而言之,数据中心的管理决不能抱有侥幸心理,由专业人员做好机房故障(特别是夏季)防御措施,在日常运维中始终提高防火意识,并形成具体方案,这才是一家靠谱IDC公司的正确姿势。


点击查看原文