设为首页收藏本站我的广告

运维网

 找回密码
 注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

搜索
运维网 首页 安全运维 数据安全 查看内容

数据中心管理,万不可先关机再检查

2012-5-7 08:53| 发布者: yunweiw.com| 查看: 674| 评论: 0|原作者: 运维网|来自: 网络

IT专家的任务是检查未经使用的服务器,但他的一次轻易关机却会给网络技术团队带来一系列不同寻常的额外麻烦

大家一定对这样的情景再熟悉不过:用户忙不迭地向服务台打电话求助,一个劲抱怨产品之愚蠢与状况之糟糕;然而调查之后的结论却是,这要么完全是一场 误会、要么就是用户自己造成的。既然用户都能造成这种程度的破坏,那么一位来自IT部门的专家如果犯错,又会搞出怎样的麻烦呢?相信这家伙一定会大大地出 名——而他所带来的问题将成为引发其它众多问题的根源。

在这个经典故事发生之时,我正为某家规模巨大的非美国国有机构工作。当时机构中的某位IT专家——我们姑且称他为“Robert”吧——接到一项任务,即将主数据中心内 那些未贴标签的已经离线且将不再继续使用的服务器加以系统清退。当时管理层的想法主要是为了清理空间、对中心内的各使用中硬件进行精确清点、搞明白哪些团 队在使用哪些硬件以及使用的具体理由。如果对某件设备的作用不太清楚,Robert需要首先明确哪个团队在使用它,然后在着手处理前等待团队给出的详细反 馈信息。

同其它任何数据中心一样,我们的这套设施也拥有大量服务器及其它周边设备,其中一些装置的重要性显然高于其它。由于我所在的是一家国有机构,所以外围防火墙监控着大量来自互联网的信息流量:来自国内外企业与组织的内容、远程客户端、所有内部交互信息以及所有咨询数据库等等。

这些防火墙由一台中央管理服务器所控制,服务器向每个防火墙体系发送监控政策及配置信息。防火墙所需进行的任何必要变更都一定要由服务器端设定。而 且根据设备供应商的说法,从防火墙端无法恢复服务器的管理机制内容。一旦防火墙重新启动,它将完全根据管理服务器发来的配置文件实施配置。通过这种方式, 整套防御体系将很快恢复正常功能。

Robert就这样带着他的任务穿梭在整个数据中心之中,并通过Excel表格记录下所有详细信息;这时情况出现了——出于某种我们无法理解的原因,他认为这台管理服务器并没有承担什么重要的工作内容。他随手将服务器关闭并直接把网线给拔掉了,并捧着机器回到自己的办公桌旁。最可怕的是,他开始着手格式化服务器硬盘。

有一点可以肯定,他并不是什么从事间谍活动的危险人物,也并非带着共产主义国家的密令意欲摧毁资本主义世界的邪恶统治——他只是在管理生产型数据中心时犯了点迷糊。

接下来的事情大家也想得到,网络团队开始接手审查——当他们发现管理服务器直接从数据中心里消失后自然是又惊又怒,场面一片混乱。

当他们最终在Robert的办公桌上找到这台管理服务器时,他们发现Robert根本没注意到服务器上所贴的标签,甚至没注意到那台服务器在被拔掉插头之前处于使用状态。他当时迅速做出了判断——压根没打算做什么调查——这台服务器没啥用。

网络团队开始尝试全力挽救一切,但接下来的大问题令人束手无策:服务器内容并未进行过备份。实际情况表明,这台服务器的日常管理者没有意识到数据库 内容就保存在其中。由于缺乏沟通,管理员认为一旦发生事故,只要根据防火墙端的信息进行重装即可令一切恢复正常。他们对防火墙进行了多次备份,但服务器这 边则完全无人理睬。

事已到此也别无他法,从零开始的重建工作一直持续了五个月,这才让防御机制回到维护前的初始状态。

情况跟大家想象的一样,管理者们对Robert既非普通又非文艺的工作能力大为不满,他在IT部门中的地位也随之一落千丈。数据中心最佳实践方案也做出一番大规模整顿,并成为机构全体人员的进修课程。此外,那台管理服务器也从此得到了定期备份的待遇。

原文名:Data center don't: Unplug first, ask questions later

下一篇:如何把企业信息化与信息安全做到统一

上一篇:从Facebook学习八大数据中心管理经验


鲜花

握手

雷人

路过

鸡蛋
加入阿里云推荐返利15%

最新评论

QQ|申请友链|sitemap|手机版|小黑屋|Archiver|运维网 ( 京ICP备16008201号  

GMT+8, 2016-12-4 22:16 , Processed in 0.034560 second(s), 29 queries , Xcache On.

Powered by Discuz! X3.2 Licensed

© 2001-2013 Comsenz Inc.

返回顶部