全国数据中心专业人才网
全国数据中心专业人才网详情页背景图
全国数据中心专业人才网详情页icon最新动态 全国数据中心专业人才网所在位置icon 您所在的位置:首页 > 最新动态
微课007期:如何玩转数据中心的保障预案
微课007期:如何玩转数据中心的保障预案

  

本期微课的话题是:什么是应急技术保障预案,我们从预案的理念展开讨论。本文不做技术的深度探讨,重点讨论设计理念及应用。对数据中心运维管理有所帮助,应急预案是日常运行管理中应急管理的内容之一。

 

 

1.预案的概念
 

 

 

要讨论预案的理念,我们先来讲讲什么是“预案”?

预案就是预先制定好的应急方案。

在生产科学管理系统中,避免生产活动过程中由于自然环境的突发改变或人为因素的干扰而造成生产活动的停顿,必需制定相对应的“预案”来防止事态的进一步“恶化”,尽快恢复生产活动。在现实运维管理过程中“错误”一不小心就容易犯,犯了错误就得想办法不让事态扩大,这些防止事态扩大的控制方法,就是预案。

 

所以“预案”是指根据事先评估分析或先前的经验,对潜在的或可能发生的突发事件的类别和影响程度而事先制定的应急处置方案。

预案在工程应用设计上是从技术放案着手,从技术方案出发,分析研究解决各类技术问题,并有针对性和系统性提出解决方法和对策的应用,确保系统的完整性。

 

  

预案的理念:

 

那么在数据中心设计中哪些地方体现了预案的存在呢?

我们打个比方:供配电系统采用2N架构,当一路市电中断时,系统会通过低压联络开关给下游两路负载供电,保证下游负载的双电源。再一步假设:两路市电同时中断了。这时柴油机自动启动,给下游负载供电还是能保证负载的双电源供电。这些系统设计就是将市电中断的“预案”固化到系统里了。这就是在设计中加进了预案的理念。

如果这些预案都没起作用。最终使得数据中心机房宕机了!既然宕机,就要找出宕机的原因了。宕机的原因得一步一步排查。在宕机前,机房设备或人为操作肯定是犯“错误”了!但在设计角度看:好像“错误”又是允许的哦。在自动化控制系统中,要完成控制目标,那无时不刻的在各种“预案”中找出最合理的控制方案来“纠正”目标控制过程中的有可能出现的“错误”。

这就是预案的理念!

 

预案存在的形式:

 

设计并不能把所有场景都加入预案的理念。因为设计只能考虑同一时间只有一个故障发生,没办法考虑多处故障同时发生的情况。更没办法考虑因人为的误操作导致的二次故障发生。

也就是说把所有预案的理念都融进设计,固化到系统里是做不到的。而这些不能固化到系统里的预案,应该以何种形式存在才能在发生紧急情况时,让运维人员迅速找到最正确的控制方法。

这些预案都应该以文档的形式存放在运维管理工作中。运维管理制度体系中应该保存,运维值班工作台应该存放,具体的设备边上也应该张贴。

那么,哪些预案应该存放在制度体系中,哪些预案应放在案头,哪些预案应该张贴在设备跟前呢?请继续往下阅读!

  

 

2.预案的分类
 

 

根据《生产安全事故应急预案管理办法》规定,结合数据中心运维管理体系应急管理实际情况可将应急预案分为三级:分别是综合应急预案、专项应急预案、现场处置方案。

综合应急预案:

综合应急预案指企业级应急预案,企业风险种类多、可能发生多种事故类型。企业应当组织编制本单位的综合应急预案。此类预案应该以正式的书面形式在运维管理体系文件中体现。

综合应急预案的内容应当包括:

本单位的应急组织机构及其职责;

预案体系及响应程序;

事故预防及应急保障;

应急培训及预案演练;

应急避险的行动程序(撤离逃生路线图);

可依托的社会力量(如消防、医疗卫生等部门)救援程序等主要内容。

事件级别较高的甚至涉及整个大楼或整个地区的突发事件如地震、火灾、台风、洪灾等,企业应急指挥小组应依据综合应急预案的内容进行指挥和应急。

专项应急预案:

针对某一种类风险,数据中心运维管理部门应当根据存在的重大危险源和可能发生的事故类型,运维管理部门应制定相应的专项应急预案。此类应急预案作为运维管理体系中的文件,并以纸质书面形式存放于运维值班办公桌,作为应急手册使用。

专项应急预案的内容应当包括:

危险性分析;

可能发生的事故特征;

应急组织机构与职责;

预防措施;

应急处置程序;

应急保障等内容。

在数据中心运维管理过程中这种专项的风险如:市电中断、管道漏水、冷水机组故障、数据中心火灾等突发事件。数据中心运维管理部门应制定相应的专项应急预案。

现场处置方案:

对于危险性较大的重点部位,数据中心运维管理部门应当制定重点部位或重要设备的现场处置方案。现场处置方案的内容应当包括:

应急处置程序;

应急处置要点;

注意事项等内容。

此级别的应急预案就是所谓的EOP。应该在重点部位的显眼位置张贴,应急操作时按步骤进行操作。

例如气体灭火消防钢瓶作为数据中心重点部位,应在钢瓶间显眼位置张贴消防气体灭火系统现场应急处置方案;UPS并机组切换至维修旁路应急操作EOP,应在UPS并机组附近张贴该应急处置方案。

 

 

3.预案的管理
 

 

设计将预案的理念融进系统,但冗错只有一次,假如多次连续出现,这就是有可能预案没有管好。那应急预案该如何管理呢?

其实应急预案只是数据中心应急管理的内容之一,应急预案的管理就是应急管理的内容。先说说什么是应急管理。

数据中心应急管理是指数据中心现场突发事件的事先预防、事发应付、事中处置和善后管理过程中,通过建立必要的应对机制,采取一系列必要措施,保障运维人员和社会公众的生命安全,最大限度地减少环境破坏、社会影响和财产损失的活动。应急管理应该还包括应急组织建立、应急物资管理、应急预案管理、应急演练等内容。那么应急管理的其他内容咱们以后的微课再说,今天咱先讲讲应急预案如何管理。

应急预案的管理应遵循PDCA的原则,主要包括以下几个程序:

应急预案制定—应急预案评审—应急预案培训与演练—应急预案实施—应急预案修订。

预案的制定:

应急预案一定是在“技术方案”的基础上建立起来的。各级预案及处置方案之间相互衔接。编制的综合应急预案、专项应急预案和现场处置 方案之间应当相互衔接,并与所涉及的其他单位的或地方政府的应急预案相互衔接。各级应急预案的内容在上文中已经详述,此处不再赘述。

应急预案还应当包括外部和本单位或本部门内部应急组织机构和人员的联系方式、联系程序、应急物资储备清单等信息,应急预案中的信息及联系方式等信息应当经常更新,确保信息准确有效。科学的做法是将联系方式这类时常要更新的信息单独做成预案的附表。信息更新时,只更新附表即可。

预案的评审:

制定好的应急预案并不能立即发布使用,编写小组应将制定好的应急预案提交至本运维管理部门专家组评审,综合应急预案还应提交至本企业相关制度部门评审,评审的目的是确保应急预案的可实施性、可操作性。避免应技术原因造成应急预案存在重大风险漏洞。有条件的单位,评审小组必要时可按照预案的步骤对现场系统进行实战演练操作,利用此方法验证应急预案的可靠性。评审通过后的应急预案方可发布实施。

应急预案的培训:

发布实施的应急预案应尽快让运维人员掌握,运维管理团队应定期组织运维人员进行应急预案的培训和演练。应急培训应包括以下内容:

1 .使应急救援人员熟悉应急救援预案的实际内容和应急方式;

2 .使应急救援人员明确各自在应急行动中的任务和行动措施;

3 .使有关人员及时知道应急救援预案和实施程序修正和变动的情况;

4 .使应急救援人员熟悉安全防护用品的正确使用和维护;

5 .使员工熟知紧急事故的报警方法和报警程序,一旦发现紧急情况及时报警;

6 .使员工懂得在紧急情况发生后有效的逃生方法。

应急预案的演练:

除了应急培训之外还应相应的组织应急演练。应急预案的演练分为部门级演练和企业级演练,以及配合政府联合演练三个级别。

1. 项目部级现场处置方案演练主要为进行熟悉应急行动或完成某项应急任务所需要技能而进行的单项演习,如报警、通报程序的演练、岗位紧急处理措施的演练、紧急疏散 行动的演练等。单项演练的频次在每年2次以上。

2. 企业级综合应急预案演练或者专项应急预案演练主要进行需要企业内部多个应急组织之间或与某些外部应急组织之间相互协作进行的演习。演练的频次在每年1次以上。

3 . 企业和政府联合进行的演练,由政府相关部门控制演练的范围和演练的频次。

应急预案的实施:

应急预案作为应急操作的指导文件,运维人员应熟记于心,通过培训和演练使运维人员将各操作步骤潜意识化,但演练毕竟不同于真实发生场景,当真实发生应急情况时,现场人员很可能脑袋空白,平时练得再多的步骤都可能因紧张的情绪而手忙脚乱,为避免此种情况发生,在真正发生应急情况时,最好由两名运维人员完成应急操作,一名按预案所写的步骤大声念出,另外一名操作。每操作一步,唱票人核对一次。直到按预案步骤完成全部应急操作。派两名运维人员也出于人身安全的考虑,当一名人员遇难时,另一名可及时施救或求救。

所有的应急操作都建立在被操作的设备可正常动作的状态,假如因系统或部件本身的故障使得应急操作失效,则不属于应急预案自身问题。应加强设备维护保养的管理。

应急预案的修订:

应急预案一旦发布,也不是一成不变,应实行定期和及时修订的制度。应急预案的及时修订是保证应急预案针对性、实效性的重要措施,应急预案实施结束后,应急管理组织应组织人员进行应急预案评估,总结预案中存在的不足,重新修订应急预案,进入新的应急预案评审阶段。企业制定的应急预案应当至少每3年修订1次,预案修订情况应有记录并归档。 在数据中心实施的客观状态发生以下重大变化时,应组织对有关人员项目职业健康、安全与环境应急预案进行及时修订,不断完善,实现持续改进。

 

 

4.预案存在的价值
 

 

在数据中心运维管理中应急预案应充分渗透到数据中心各个角落,例如数据中心内部的《火灾逃生疏散图》、监控室悬挂的《应急响应流程图》、值班室办公桌上的《专项应急预案手册》都是应急预案的形式。下面通过一个案例说明应急预案在运维管理中的作用究竟有多大。

案例分享:

某数据中心A路市电变压器因高温保护停机,负载通过低压联络开关切换至B路变压器。3分钟后B路变压器因过载也停机。此时数据中心两路市电中断,负载由电池供电,由于发电机系统设计不够完善未能自动启动。

机房值班人员接收到告警后,判断了事件等级后根据应急预案的指导,第一步是电话汇报机房负责人。第二步到现场查看情况,准备应急操作。

此时,机房负责人到场指挥,根据预案的指示,逐级上升汇报,并指挥其他保障人员到物业大楼配电室进行跟进油机的启动情况。那位值班人员早早在机房ATS柜前面等待负责人的指令进行手动切换到油机的操作。

由于该名值班人员为新入职员工,对此项操作只在培训和演练中做过,未遇过真实情景。当时已经吓得嘴唇发紫,两手哆嗦。当负责人下指令可以切换的时候,值班人员按照配电柜上张贴的应急处置方案的步骤执行。

最终值班人员操作正确,负载切换至备用电源,由柴油机带载4小时后市电恢复。总算成功化解了一次危机。

该运维管理团队在后续的总结中认为此次危机能成功化解得益于平时培训和演练到位,现场的应急预案和处置方案有效,且存放位置规范、张贴明显。

运维管理对应急预案的管理就像在买保险,希望一辈子也不要发生理赔事件,但一旦发生事故才发挥保险的重要性。各位读者也给自己的数据中心上一份“保险”吧!

生活中的应急预案:

 

应急预案不仅仅只存在于数据中心的运维管理中,其实在生活中的方方面面都有应急预案的存在,例如坐地铁时,车厢门边上会有个手动的旋钮,旋钮边上还会有关于旋钮使用方法的文字描述。这不就是现场处置方案吗?

公共场所悬挂或张贴的安全教育贴画,不也是一种形式的应急预案吗?

大家还能想到生活中的应急预案呢?欢迎留言!

 

小编

 

       本期微课感谢同学的案例分享,感谢各位老师,同学们热烈的讨论!让我们学到应急预案还有这么多管理知识!本期微课到此结束,期待下一期的知识分享!