现在的位置:首页  /  云计算培训 >云计算技术教程

云计算运维管理的应用与实践

来源: 薪享宏福
发布时间: 2018年12月11日
分享到:
云计算运维管理
  所谓云计算运维管理是指单位IT部门采用相关的方法、手段、技术、流程和文档等,对云计算运维环境(如硬软件环境、网络环境等)、IT业务系统和云计算运维人员进行的综合管理。
 
  云计算运维管理主要包括八个方面的管理内容。
 
  设备管理:对网络设备、服务器设备、操作系统运行状况进行监控和管理。
 
  应用/服务管理:对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理,如邮件系统、DNS、Web等的监控与管理。
 
  数据/存储/容灾的管理:对系统和业务数据进行统一的存储、备份和恢复。
 
  业务管理:包含对企业自身核心业务系统运行情况的监控和管理。对于业务的管理,主要关注该业务系统的CSF (关键成功因素Critical Success Factors)和KPI(关键绩效指标Key Performance Idicators)。
 
  目录/内容管理:该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理。
 
  资源资产管理:管理企业中各IT系统的资源资产情况,这些资源资产可以是物理存在的,也可以是逻辑存在的。并可以与企业的财务部门进行数据交换。
 
  信息安全管理:该部分包含了许多方面的内容,目前信息安全管理主要依据的国际标准是ISO17799,该标准涵盖了信息安全管理的十大控制方面,36个控制目标和127中控制方式,如企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等。
 
  日常工作管理:该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段。
 
  通过以上对云计算运维管理的理解,我们对服务器设备进行了系统的维护,根据企业的实际情况制定了详细的策略和方法,为服务器稳定运行提供最基础的保障。
 
企业运维管理的策略和方法
 
  在错综复杂的信息环境中,企业要想吸取有效信息就必须面对跨越异构环境(硬件平台、操作系统、数据库平台……)带来的层层障碍。针对企业的现状以及我们对云计算运维管理的理解,我们制定的策略和方法。
 
  1.设备管理
  设备管理主要是对网络设备、服务器设备和操作系统等的运行状况进行监控和管理。本公司的网络设备有思科、华为和中兴等三家的产品,服务器设备IBM、HP、Sun以及联想等四家;操作系统更是有AIX、Windows、Unix和Solaris等四种;为保证应用系统安全稳定的运行,各应用系统也由单机系统变成了双机备份系统,这样就大大提高了网管系统的效率和可用性。
 
  1.1 网络设备
 
  对于企业来说,功能完善的网络属于必备的条件。本公司的网络设备类型有三种,我们使用HP的软件在被管节点上安装代理程序通过SNMP把需要采集的信息,包括性能数据、阈值告警等传递到管理站,然后我们的网络管理员就可以通过网络管理站来实时的监控获取到的相关信息来监控网络运行状况,为网络管理和运维提供可靠依据,保证网络7x24小时稳定运行。
 
  1.2 服务器设备
 
  我们首先对设备进行正常的日常维护,除此之外,我们还针对不同设备、应用系统的要求以及维护的要求分别对各类设备进行维护,如我们现有服务器50多台,一台一台地检查一次至少需要2个小时,既浪费时间也麻烦还容易出错,给运维带来很大的工作量,我们根据这种情况通过交换机将各服务器连接起来,组成一个局域网,利用带外管理软件来管理和运维,这样既可以快速发现故障也减少了许多的 作量。
 
  1.3 操作系统
 
  操作系统是一管理电脑硬件与软件资源的程序,同时也是计算机系统的内核与基石。操作系统身负诸如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统是管理计算机系统的全部硬件资源包括软件资源及数据资源、控制程序运行、改善人机界面、为其它应用软件提供支持等,使计算机系统所有资源最大限度地发挥作用。目前操作系统的种类繁多,但所有的操作系统具有并发性、共享性、虚拟性和不确定性四个基本特征,根据这些特征,我们制定了各类操作系统的巡检制度,并结合网管软件将错误日志等通过短信或邮件发给维护人员,使我们能够及时快速的发现和处理故障保证业务系统的正常运行。
 
  2.应用/服务的管理
  应用和服务的管理主要是对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理,而我们维护主要对数据库进行日常管理和维护。数据库是应用软件的核心,数据库日常维护工作是系统管理员的重要职责,熟悉数据库的维护方法对于计算机技术人员解决日常工作中的问题来说是很有帮助的。我们主要从几个方面对数据库进行维护。
 
  2.1监视系统运行状况,及时处理系统错误
 
  我们通过观察监视当前用户以及进程的信息、目标占用空间情况、监视Server的统计数据等对数据库进行日常巡检和管理。
 
  2.2备份和恢复数据库数据
 
  利用IBM 公司的TSM 软件和Acronis软件,对各系统的数据库定期进行备份、恢复和归档,并定期进行数据库优化工作。
 
  2.3保证系统数据安全。定期更改用户口令
 
  3.业务管理
  我们的业务系统分为数据采集、综合展示和短信系统等部分,我们通过HP的采集软件将网络设备和服务器设备进行监控,并通过报表和短信系统展示出来,逐渐从传统的人工监管向利用软件自动监管的方向过度,并将出现的故障写入服务流程单,进行总结和归档,为以后的维护提供原始资料。
 
  4.数据/存储/容灾的管理
  存储已经从网络基础架构外的一部分发展为网络的重要组成,从直接连接到服务器上的一块磁盘到庞大的网络存储。存储管理之所以复杂,是因为它管理的对象庞大而且层次不齐。从广义上讲,凡是一个企业的网络环境中有数据存放的地方都是存储,这就包括了数据库、服务器、用户终端,甚至链接的线路都和存储发生着紧密的关联,此外还有那些时而离线时而连线的笔记本电脑、移动硬盘、优盘、闪存等。狭义地讲,存储就是指光盘、磁盘阵列、磁带库、NAS、SAN系统等,而无论是广义概念上的存储管理还是狭义概念上的存储管理,都不是一件容易的事情,尤其是在大型的异构网络环境之中。我们使用的存储设备是HP StorageWorks Storage系列,利用IBM 的TSM 软件根据各应用系统的要求制定存储策略。通过TSM 灵活的策略管理功能,定制数据备份、恢复和存档,规定哪些数据需要备份或存档、存储在哪里以及保存多长时间等。TSM 的调度特性也消除了人工备份和跟踪的需求,促进了存储操作向非高峰时间的调度,从而优化了网络资源和性能。
 
  5.资源资产管理
  资产管理包括所有IT相关的硬件软件的资产清单、汇总、报表及异常情况报告等管理,资产管理功能从两个方面实现。
 
  一是管理的资产类别,包括PC机、交换机、服务器等硬件和操作系统、应用软件等软件这两个方面。资产管理不仅可以实时监视资产的当前运行状况,资产变动,而且对于一些非IT的设备,或者一些无法直接获取数据的设备也应纳入管理范围,允许用户手工增加编辑这些设备。对于资产的类别,云计算运维管理系统也应允许用户自由添加、编辑和删除类别信息,如可以允许用户增加一个“存储阵列柜”的资产类别,用户可以自己编辑相关的属性。这样可以实现一个完整的资产管理。
 
  二是基于生命周期的资产管理,资产的生命周期,主要是指资产的采购、入库、领用、正常使用、维修、库存、报废等一系列资产的生命状态。资产是个动态的概念,我们要随时掌握当前有哪些设备是正常运行的,哪些处于维修或者库存状态。基于生命周期的管理可以全面的考查资产的全面信息。
 
  我们现在根据ITIL流程中的配置流程和更改流程,利用HP的Service Manager软件将硬件、网络设备等管理起来,通过管理可以很清楚地知道我们有哪些基础设施,用在哪里,怎样合理的使用这些资源等,这样既可以节约成本也可以提高效率。
 
  6.信息安全管理
  BS 7799信息安全管理体系标准强调风险管理的思想。指导组织建立信息安全管理体系ISMS。ISMS是一个系统化、程序化和文件化的管理体系,基于系统、全面、科学的安全风险评估,体现预防控制为主的思想,强调遵守国家有关信息安全的法律法规及其他合同方要求,强调全过程和动态控制,本着控制费用与风险平衡的原则合理选择安全控制方式保护组织所拥有的关键信息资产,使信息风险的发生概率和结果降低到可接受水平,确保信息的保密性、完整性和可用性,保持组织业务运作的持续性。