分享好友 新闻首页 新闻分类 切换频道

复杂运维简单化

2007-05-11 09:354850中国节能网
箴言

用目标管理激励人心。 --彼得.德鲁克(Peter F.Drucker)  

用对待老鼠的办法对待知识财富,肯定无法使人的长处得以发挥。   --弗雷德里克.赫茨伯格(Fredrick Herzberg)   

将合适的人请上车,不合适的人请下车。   --管理学者詹姆斯.柯林斯(James C.Collins)  

把我们顶尖的20个人才挖走,那么我告诉你,微软会变成一家无足轻重的公司。 --微软总裁比尔.盖茨(Bill Gates)  

决策是管理的心脏,管理是由一系列决策组成的,管理就是决策。   --美国著名管理学家赫伯特.西蒙(Herbert A.Simon)  

从某种意义上说,融智比融资更重要,财富的生产力比财富本身更重要。   --海尔CEO张瑞敏  

一方面,选用优良的软硬件设备;另一方面,用严密的规章制度保障系统正常运转。大到系统扩容,小到服务器的日常管理工作,网通网管中心都有相应的章程加以规范。

中国网络通信集团公司(以下简称网通)在原中国电信集团公司及其所属北方10省(区、市)电信公司、中国网络通信(控股)有限公司、吉通通信有限责任公司基础上组建而成。如今,网通不仅是北京2008年奥运会固定通信服务合作伙伴,而且成为国内外知名的电信运营商,直接隶属于集团公司的网管中心,承担了全网的运维管理工作。  

精耕细作的网管中心  

与网通主营业务相对应(包括固定电话、小灵通、ADSL、大客户专线等通信业务),网管中心作为一个技术部门,要承担传输网、语音网、数据网等网络的运营维护。其职责涵盖了网络的监控、设备配置与管理、故障管理等。

复杂的网络分类,决定了复杂的运维服务工作。网通网管中心组建了13个部门,针对不同专业的网络进行分门别类的管理。而黄海康所在的动力维护与系统支撑部,主要是对整个集团公司的网管系统做好运维支撑服务。

据黄海康介绍,网管系统由各种硬件、软件、服务器以及不同的操作平台组成,这些都是系统支撑部的管理范围。

虽然在购置软硬件时,厂商会提供一定时期的服务,但是,电信运营的复杂性决定了一个厂商不可能做所有系统。网通的网管系统至今仍是分散的,细分为IP性能分析系统、语音网管理系统、传输网管理系统等。因此,管理这些网管系统本身就是一件复杂的工作。

对于黄海康和同事来说,最重要的工作是对海量存储系统、投影系统以及服务器/主机系统的运营维护和管理。

海量存储系统是所有网络运维部门共享的一个系统,而不属于某一个部门,语音网可以用,传输网也可以用。之所以称为“海量”,是因为它有几个TB的容量,并且运转在光接口上。系统支撑部根据每个部门的要求,分配海量存储系统的空间,并对模块系统进行管理,保证系统的正常运转。

投影系统是网管中心指挥调度的一个辅助系统,它显示各种流量和数据,便于相互协调。这也需要系统支撑部的分配。

服务器/主机有web服务器、DNS、邮件服务器等,对网络提供不同的服务,它们更是需要长期的维护。

对网管系统的日常监控、配置和管理成为系统支撑部最重要的日常工作,保障网管系统的正常运转,不出故障,也是系统支撑部最大的理想。因为,一旦系统宕机,数据可能丢失,对业务影响非常大,甚至造成无法挽回的损失。

每天的“作业”与每月的“功课”  

严密的规章制度是网通运维管理中的一项重要内容。大到系统扩容,小到一个U盘的发放工作,都有相应的章程加以规范。

“一方面,我们选用优良的软硬件设备;另一方面,我们用严密的规章制度保障系统正常运转。”黄海康介绍说。网管大厅、机房设备等运维管理,网管人员都有章可循,有规可依。

就拿服务器/主机的维护来说,说简单也很简单,网管人员“少操作甚至不操作”也能运转,因为很多故障都是人为操作造成的。但是,要真正管好,网管人员却有很多的“功课”要做。网通就对服务器/主机的运维管理制定了“维护作业规程”。

“维护作业规程”规定了网管人员每天要做的作业和每月必修的功课。记录CPU使用率、删除无用文件以释放磁盘空间、检查当前运行的服务进程、病毒码是否最新、系统补丁是否更新、机器指示灯是否完好、网络是否连通等,都是网管人员每天必须要做的。

每月要做的事情有检查电源、电缆是否牢固,标签是否完好,数据备份等。

虽然这些事看起来小,却必不可少。比如设备标签,它包含很多信息量,有序列号、所属部门、购置时间、责任人、用途、配置以及IP地址等。标签有无与新旧,不仅影响财务部门的资产审计,而且影响其他网管人员对该机器的维护。

系统支撑部承担了相关规章的制定工作。服务器分布在各个专业部门,系统支撑部就要下发服务器的维护作业规程,并督促各部门落到实处。如果没有一天一天的积累,等大的问题发现时,可能补救都来不及了。  

扩容  

长期而细致的维护工作中,网管员可能会发现某台服务器响应速度越来越慢,或者磁盘空间越来越小等状况?这是网管中心系统支撑部在日常维护管理工作中遇到的另一个问题?现有设备或系统不能满足业务的需求。

在这种情况下,系统有两种选择:扩容和替换。基于成本的考虑,网管中心首先会选择扩容。费用较高的大型设备的扩容,一般由设计院来研究决定;小型设备如服务器等则由网管中心申请、测试和实施,如服务器的扩容。

黄海康就经历过一台服务器的扩容。那是一台提供认证服务的服务器,在用户拨号上网时,输入账号和密码,经服务器验证后给用户授权。

但是服务器使用年限一长,性能明显落后,直接影响接通效率。服务器对用户请求应接不暇,发展到后来只有少量用户能够连上。

网管中心首先想到了给这台服务器扩容:从单个CPU增加到双个CPU,内存从512兆增加到1G。他们选择了凌晨3点左右(此时流量少,影响也最小)实施,拆开服务器,插入一个模块,然后重启,看服务器能否识别新硬件,功能是否正常。如果不识别,则分析原因,比如是否软件也要升级才能识别硬件。

当然网管人员做好了功能不正常的准备,在计划的时间没有办法解决故障,他们就会拆掉新加的模块,恢复原状,然后再试。

事实上,他们只用了一个小时就成功实施了服务器的扩容。  

切换  

经过扩容的认证服务器在使用半年之后,又产生了同样的问题??它仍然满足不了业务增长的需求。但是服务器满配就是2个CPU,已经不能再扩容。此时,网管中心需要用一个全新的机器来代替它。

用一个新机器来代替在线使用的设备,即新旧设备的切换,这需要测试。网管中心安装新系统之前要做好测试工作,或者人工模拟用户使用状况,或者采用测试系统。网通新系统的测试一般都有计划书,按照计划一步一步去测。

比如一个步骤要测试5遍,每一遍的测试数据都要记录下来,包括出现的故障,以及解决方法等。同时,要根据系统的复杂程度决定切换时间,短的半天,长的一周,甚至半年。但电信企业要求不长于3小时。

系统或设备切换必然涉及到服务中断,因此也要选择恰当的时机。在服务器断电后,将其移出机柜,新的机器接通电缆,然后检查新机器以及相关设备是否运转正常,只有恢复到割接之前的状态才算正常。

但是,扩容还是切换新系统,并不是短视行为,而要长期规划。它不仅取决于硬件系统的性能,更重要的是与业务部门的需求相匹配。

如果系统所提供的服务,是增长快、市场潜力大的业务,则会考虑未来需求进行扩容或更换新系统。相反,如果系统所服务的业务,增长量已经达到高峰,或者呈下降的趋势,则不会考虑扩容。网管部门和市场部门分别提出建议,领导根据双方的情况决定是否扩容。

链接

数据通信维护规程(部分)

数据通信网络业务数据和软件的维护管理

   1.维护项目及维护周期

   (1)定期检查和清理网络业务数据(每月);

   (2)网络局数据的增、删、改(实时);

   (3)用户数据的增、删、改(实时);

   (4)软件备份(必要时);

   (5)软件升级(必要时)。

   2.维护要求

   (1)网络业务数据应根据需要定期按时备份,并注意保存备份结果;

   (2)新版本业务数据产生后应先进行测试,再避开忙时加载使用,并作记录;

   (3)所有设备在作配置修改前后应及时备份。备份结果保留到下一次;

   (4)软件维护要做到

   ①软件维护须由专人负责,并严格做好日常维护工作;

   ②必须严格执行各类软件维护制度,并制定软件维护工作计划;

   ③软件版本更新(升级)、软件的修改必须遵守先审批后执行的原则;

   ④不得进行正常软件维护工作以外的操作。

   数据通信系统网管设备的维护

   1.日常维护项目和要求

   观察网管系统各部分的运行状态,包括:

   (1)CPU负荷

   (2)磁盘状态

   (3)文件系统

   (4)存储空间

   (5)打印机

   (6)通信接口

   (7)控制台终端

   2.年检维护项目和要求

   利用系统提供的诊断测试程序,每年进行一次全面的系统诊断测试,项目包括:

   (1)CPU

   (2)内存储器

   (3)磁盘

   (4)光盘机

   (5)磁带机

   (6)打印机

   (7)通信接口

   (8)显示器

   (9)路由器

   (10)局域网接口
举报
收藏 0
评论 0