企業(yè)級自動化運維 與發(fā)展趨勢

隨著企業(yè)信息化的不斷發(fā)展,運維人員需要面對越來越復(fù)雜的業(yè)務(wù)和越來越多樣化的用戶需求,不斷擴(kuò)展的應(yīng)用需要越來越合理的模式來保障運維服務(wù)能靈活便捷、安全穩(wěn)定地持續(xù)。

某企業(yè)從初期的幾臺服務(wù)器發(fā)展到龐大的數(shù)據(jù)中心,單靠人工已經(jīng)無法滿足在技術(shù)、業(yè)務(wù)、管理等方面的要求,那么標(biāo)準(zhǔn)化、自動化、架構(gòu)優(yōu)化、過程優(yōu)化等降低運維服務(wù)成本的因素越來越被人們所重視。

其中,自動化開始代替人工操作在企業(yè)的運維過程中逐漸體現(xiàn)出來了強(qiáng)大的優(yōu)勢。

運維隨著企業(yè)業(yè)務(wù)的發(fā)展,自動化作為其重要屬性之一已經(jīng)不僅僅只是代替人工操作,更重要的是深層探知和全局分析,關(guān)注的是在當(dāng)前條件下如何實現(xiàn)性能與服務(wù)最優(yōu)化,同時保障投資收益最大化。通過自動化運維能最大限度地在更少的維修時間內(nèi)實現(xiàn)運維目標(biāo),提高運維服務(wù)質(zhì)量。因此, 對于越來越復(fù)雜的運維來說,將人工操作逐漸改變?yōu)樽詣踊芾硎且粋€重要發(fā)展趨勢。

2. 企業(yè)級自動化運維 在的問題與需求

某企業(yè)初期只有文件共享和郵件服務(wù)等幾臺服務(wù)器,運維工作完全由人工操作,隨著企業(yè)的發(fā)展,新業(yè)務(wù)系統(tǒng)不斷上線企業(yè)、建設(shè)了中心機(jī)房,運維工作還是以人工為主,但是這一階段增加了網(wǎng)絡(luò)管理系統(tǒng)和環(huán)境監(jiān)控系統(tǒng),這兩個系統(tǒng)在一定程度上減輕了運維的工作量,基本上實現(xiàn)了運維的半自動化。

企業(yè)在發(fā)展,運維工作量在不斷的增加,企業(yè)的運維工作面臨以下的問題及需要解決:

2.1 運維人員的工作效率與工作主動性需要提升

在企業(yè)運維過程中,只有當(dāng)故障已經(jīng)發(fā)生并且造成業(yè)務(wù)影響時才能發(fā)現(xiàn)和著手處理,這種被動“救火”不但使運維人員終日忙碌,也使運維本身質(zhì)量很難提高,導(dǎo)致 IT 部門和業(yè)務(wù)部門對運維服務(wù)滿意度都不高。

運維人員日常大部分時間和精力是處理一些簡單重復(fù)的問題,而且由于故障預(yù)警機(jī)制不完善,往往是故障發(fā)生后或報警后才會進(jìn)行處理,使得運維人員的工作經(jīng)常是處于被動的狀態(tài),怎樣才能在故障發(fā)生前及時發(fā)現(xiàn)并把故障處理掉,使運維工作變被動為主動?

2.2 需要建立一套高效的運維機(jī)制

企業(yè)在運維管理過程中缺少自動化的運維管理模式,沒有明確的運維人員角色定義和責(zé)任劃分,使到問題出現(xiàn)后很難快速、準(zhǔn)確地找到根本原因,無法及時地找到相應(yīng)的人員進(jìn)行修復(fù)和處理。

或者是在問題找到后缺乏流程化的故障處理機(jī)制,而在處理問題時不但欠缺規(guī)范化的解決方案,也缺乏全面的跟蹤記錄,企業(yè)需要建立一套高效的運維管理制度為運維工作提供方向和依據(jù)。

2.3 缺乏高效的運維技術(shù)工具

隨著信息化建設(shè)的深入,企業(yè)業(yè)務(wù)系統(tǒng)日趨復(fù)雜,各種各樣的網(wǎng)絡(luò)設(shè)備、服務(wù)器、存儲設(shè)備、業(yè)務(wù)系統(tǒng)等讓運維人員難以從容應(yīng)對,即使加班加點地維護(hù)、部署、管理也經(jīng)常會因設(shè)備出現(xiàn)故障而導(dǎo)致業(yè)務(wù)的中斷,嚴(yán)重影響企業(yè)的正常運轉(zhuǎn)。

出現(xiàn)這些問題部分原因是企業(yè)缺乏事件監(jiān)控和診斷工具等運維技術(shù)工具,因為在沒有高效的技術(shù)工具的支持下故障事件很難得到主動、快速處理。

3. 業(yè)務(wù)流程標(biāo)準(zhǔn)化與健全運維管理制度

3.1 實現(xiàn)業(yè)務(wù)流程標(biāo)準(zhǔn)化,為自動化運維打好基礎(chǔ)

標(biāo)準(zhǔn)化是自動化運維的基礎(chǔ),想要實現(xiàn)標(biāo)準(zhǔn)化,首先識別各個運維對象,然后我們?nèi)粘W龅乃羞\維工作都應(yīng)該是針對這些對象的運維。

如果運維操作脫離了對象,那就沒有任何意義。同樣,沒有理清楚對象,運維自然不得章法。例如擴(kuò)容,首先確定是服務(wù)器的擴(kuò)容,還是應(yīng)用的擴(kuò)容,還是其它對象的擴(kuò)容。

你會發(fā)現(xiàn),對象不同,擴(kuò)容這個場景所實施的動作是完全不一樣的。

如果把服務(wù)器的擴(kuò)容套用到應(yīng)用的擴(kuò)容上去,必然會導(dǎo)致流程錯亂。同時對于對象理解上的不一致,也會增加無謂的溝通成本,造成運維效率低下。

這種情況下的自動化運維不但不能提升效率,還會越自動越混亂。

實現(xiàn)標(biāo)準(zhǔn)化的第一步是物理基礎(chǔ)設(shè)施的標(biāo)準(zhǔn)化,例如,識別物理對像服務(wù)器、交換機(jī)、機(jī)柜等硬件;識別這些物理對像的屬性,服務(wù)器的序列號、ip地址、廠商等信息;

識別這些對像之間的關(guān)系,服務(wù)器所在的機(jī)柜、接入哪個交換機(jī)的哪個接口了等信息。

服務(wù)器物理基礎(chǔ)設(shè)施的標(biāo)準(zhǔn)化如下圖(其它設(shè)備的標(biāo)準(zhǔn)化以此類推):

企業(yè)級自動化運維

第二步是應(yīng)用的標(biāo)準(zhǔn)化,應(yīng)用服務(wù)、中間件,數(shù)據(jù)庫等;例如,數(shù)據(jù)庫的表、視圖、存儲過程的標(biāo)準(zhǔn)化,表的字段名、值,索引等,表和視圖之間的關(guān)聯(lián)關(guān)系等。

第三步是流程標(biāo)準(zhǔn)化,如備份、軟件升級、殺毒,新業(yè)務(wù)上線等流程的標(biāo)準(zhǔn)化,下圖是現(xiàn)在的運維流程:

企業(yè)級自動化運維

企業(yè)級自動化運維 是基于流程化的框架,將事件與IT流程相關(guān)聯(lián),一旦被監(jiān)控系統(tǒng)發(fā)現(xiàn)性能超標(biāo),超過預(yù)先配置的閥值或宕機(jī),就會觸發(fā)相關(guān)事件以及事先定義好的流程,可自動啟動故障響應(yīng)和恢復(fù)機(jī)制。

自動化工作平臺還可幫助運維人員完成日常的重復(fù)性工作,提高運維效率,下圖是實現(xiàn)自動化運維的流程圖:

企業(yè)級自動化運維

運維的自動化能夠預(yù)測故障、在故障發(fā)生前能夠報警,讓運維人員把故障消除在發(fā)生前,將所產(chǎn)生損失減到最低。由過去的手工執(zhí)行轉(zhuǎn)為自動化操作,從而減少乃至消除運維中的延遲,實現(xiàn)“零延時”的運維。

3.2 建立完整、全面的運維管理制度,為自動化運維的實現(xiàn)保駕護(hù)航

運維制度的建立包括環(huán)境管理、資產(chǎn)管理、介質(zhì)管理、設(shè)備管理、監(jiān)控管理、網(wǎng)絡(luò)安全管理、系統(tǒng)安全管理、惡意代碼防范管理、密碼管理、變更管理、備份與恢復(fù)管理、安全事件處置,應(yīng)急預(yù)案管理等制度。

  1. 運維管理制度是衡量運維工作的一把尺子,完善的管理制度能有效的提升運維工作效率,日常工作以管理制度為依據(jù),按規(guī)定的要求和規(guī)定的流程操作既快速又準(zhǔn)確;
  2. 全面的運維管理制度能在問題和故障還沒有出現(xiàn),沒有造成損失前就被及時的發(fā)現(xiàn),從而問題得到有效的處理,業(yè)務(wù)連續(xù)性得到了保障;
  3. 運維管理制度為運維工作提供了規(guī)范化的解決方案,使運維人員在處理問題時有章可循快速找到問題的根本原因,把問題對業(yè)務(wù)造成的損失降到最低;
  4. 運維管理制度是為業(yè)務(wù)服務(wù)的,業(yè)務(wù)是不斷發(fā)展的,運維管理制度要跟得上業(yè)務(wù)的不斷發(fā)展實現(xiàn)管理制度的創(chuàng)新。

4. 自動化運維技術(shù)路線選型

4.1 自動化運維概述

自動化運維范圍包括安裝自動化、部署自動化、監(jiān)控自動化、發(fā)布自動化、升級自動化、安全管控自動化、優(yōu)化自動化、數(shù)據(jù)備份自動化等。

自動化運維系統(tǒng)包括商用自動化運維系統(tǒng)、開源自動化運維系統(tǒng),自建(研發(fā))自動化運維系統(tǒng)。

商業(yè)的運維系統(tǒng)在功能上要全面一些,服務(wù)支持上能好一些,更新與升級有保障,采購成本較高,對運維人員的技術(shù)要求相對較低。

開源運維系統(tǒng)更靈活一些,服務(wù)支持需要運維人員自身多投入一些時間和精力,更新與升級更個性化一些,相對成本較低。

自建自動化運維系統(tǒng)對人員的技術(shù)要求最高,成本也不低,但是當(dāng)企業(yè)發(fā)展到一定規(guī)模后自建的運維系統(tǒng)才能更適合企業(yè)對于自動化運維的要求。

4.2 開源運維工具的應(yīng)用場景與優(yōu)勢

1) Puppet是一個開源的軟件自動化配置和部署工具,它使用簡單且功能強(qiáng)大,很多大型IT公司均在使用 puppet 對集群中的軟件進(jìn)行管理和部署。

企業(yè)級自動化運維

優(yōu)缺點分析:優(yōu)點是Web界面生成處理報表、資源清單、實時節(jié)點管理,push命令可即刻觸發(fā)變更;

缺點是相對其他工具較復(fù)雜、需學(xué)習(xí)Puppet的DSL或Ruby,安裝過程缺少錯誤校驗和生成錯誤報表。

2) SaltStack是一種全新的基礎(chǔ)設(shè)施管理方式,部署輕松,在幾分鐘內(nèi)可以運行起來,擴(kuò)展性好,很容易管理上萬臺服務(wù)器,速度夠快,服務(wù)器之間秒級通訊。

企業(yè)級自動化運維

優(yōu)缺點分析:優(yōu)點是可以使用簡單的配置模塊或復(fù)雜的腳本,Web界面可以看到運行和監(jiān)控的工作狀態(tài)、事件日志,擴(kuò)展能力極強(qiáng);

缺點是缺少生成深度報告的能力。

3) Ansible是新出現(xiàn)的運維工具是基于Python研發(fā)的綜合了眾多老牌運維工具的優(yōu)點實現(xiàn)了批量操作系統(tǒng)配置、批量程序的部署、批量運行命令等功能。

在進(jìn)行大規(guī)模部署時,手工配置服務(wù)器環(huán)境是不現(xiàn)實的,這時必須借助于自動化部署工具。

企業(yè)級自動化運維 方案設(shè)計插圖(5)

優(yōu)缺點分析:優(yōu)點是模塊可以用任何語言開發(fā)、備管節(jié)點不需要安裝代理軟件、有Web管理界面、安裝運行簡單;

缺點是對windows備管節(jié)點需要加強(qiáng)、執(zhí)行效率相對較低。

下圖是Puppet、Saltstack、Ansible這三款運維工具處理能力與處理效率的對比:

企業(yè)級自動化運維 方案設(shè)計插圖(6)

各種運維工具只是用于幫助人員進(jìn)行運維的,每種工具都有其使用的優(yōu)勢領(lǐng)域,Puppet 適用于軟件自動化配置和部署;

SaltStack 適用于基礎(chǔ)設(shè)施管理,在幾分鐘內(nèi)可運行起來,很容易管理上萬臺服務(wù)器,速度夠快;

Ansible 適用于批量操作系統(tǒng)配置、批量程序的部署、批量運行命令等;

下面是兩個常用的開源監(jiān)控系統(tǒng):

1)Nagios是一款免費的開源IT基礎(chǔ)設(shè)施監(jiān)控系統(tǒng),其功能強(qiáng)大,靈活性強(qiáng),能有效監(jiān)控 Windows 、Linux、VMware 和 Unix 主機(jī)狀態(tài),交換機(jī)、路由器等網(wǎng)絡(luò)設(shè)備的網(wǎng)絡(luò)設(shè)置等。

一旦主機(jī)或服務(wù)狀態(tài)出現(xiàn)異常時,會發(fā)出郵件或短信報警第一時間通知 IT 運維人員,在狀態(tài)恢復(fù)后發(fā)出正常的郵件或短信通知。

企業(yè)級自動化運維 方案設(shè)計插圖(7)

優(yōu)缺點分析:優(yōu)點是配置靈活、監(jiān)控項目很多、自動日志滾動、支持冗余方式主機(jī)監(jiān)控、報警設(shè)置多樣性。

缺點是事件控制臺功能較弱、無法查看歷史數(shù)據(jù)、插件易用性不好。

2)Zabbix 是一個基于WEB界面的提供分布式系統(tǒng)監(jiān)視以及網(wǎng)絡(luò)監(jiān)視功能的企業(yè)級的開源解決方案。

用于監(jiān)控網(wǎng)絡(luò)上的服務(wù)器或服務(wù)以及其他網(wǎng)絡(luò)設(shè)備狀態(tài)的網(wǎng)絡(luò)管理系統(tǒng),后臺基于C,前臺由PHP編寫,可與多種數(shù)據(jù)庫搭配使用,提供各種實時報警機(jī)制。

企業(yè)級自動化運維 方案設(shè)計插圖(8)

優(yōu)缺點分析:優(yōu)點是企業(yè)級開源、功能強(qiáng)大、入門容易、數(shù)據(jù)可以圖形的方式呈現(xiàn)、提供多種API接口,可定制化開發(fā)。

缺點是深層次需求開發(fā)難度較大、報警設(shè)置復(fù)雜、缺少數(shù)據(jù)匯總功能、數(shù)據(jù)報表需要二次開發(fā)。

Nagios 適用于IT基礎(chǔ)設(shè)施的監(jiān)控系統(tǒng),其功能強(qiáng)大,靈活性強(qiáng),能有效監(jiān)控各種操作系統(tǒng)的主機(jī)、交換路由設(shè)備等;

Zabbix提供分布式系統(tǒng)監(jiān)視以及網(wǎng)絡(luò)監(jiān)視功能,用于監(jiān)控網(wǎng)絡(luò)上的服務(wù)器,服務(wù)以及其他網(wǎng)絡(luò)設(shè)備狀態(tài)的網(wǎng)絡(luò)管理系統(tǒng)。

以上這五種工具都是開源的,運維人員可以根據(jù)企業(yè)的規(guī)模、業(yè)務(wù)需要、所要實現(xiàn)的運維功能等要求使用多種工具組合,發(fā)揮運維與監(jiān)控工具各自的優(yōu)勢。

工具的使用需要人工的干預(yù)和決策,工具不能完全代替全部運維工作。還需要結(jié)合實際業(yè)務(wù)邏輯和業(yè)務(wù)場景,把工具與業(yè)務(wù)融合到一起。例如,按業(yè)務(wù)要求對工具進(jìn)行二次開發(fā),更好的發(fā)揮運維與監(jiān)控工具的優(yōu)勢,提升運維人員工作效率。

4.3 Saltstack 實現(xiàn)服務(wù)器部署的自動化

Saltstack 在企業(yè)中實現(xiàn)服務(wù)器部署的自動化運維,saltstack 是基于 python 開發(fā)的一套 C/S 架構(gòu)配置管理工具,它的底層使用 zeroMQ 消息隊列pub/sub方式通信,使用SSL證書簽發(fā)的方式進(jìn)行認(rèn)證管理。

salt我們選擇了0.16.0版,該版中加入了multi-masterr 特性,在這種架構(gòu)下所有的 minion 將連接到所有配置的master上去。

當(dāng)一個master出現(xiàn)故障可以使用其余的master繼續(xù)提供服務(wù),不會影響我們的正常使用,saltstack架構(gòu)如下圖:

企業(yè)級自動化運維 方案設(shè)計插圖(9)

Saltstack在企業(yè)中的部署步驟: 1、確定saltstack軟件依賴關(guān)系是否滿足要求:saltstack要求python的版本大于2.6或小于3.0,還需要檢查以下的庫,包括 msgpack-python、yaml、jinja2、markupsafe、apache-libcloud、requests等。

2、安裝 master 和 minions:我這里服務(wù)器的操作系統(tǒng)是centos的,安裝命令如下:

Wget http://download.fedoraproject.org/pub/epel/6/i386/epel-release-6-8.noarch.rpmyum install salt-masteryum install salt-minion注:安裝成功,顯示Complete。

3、創(chuàng)建一個 master 服務(wù)的備份節(jié)點并復(fù)制主 master 節(jié)點的 key 到備節(jié)點:

Master:-saltmaster1.cccxht.com-saltmaster2.cccxht.com

默認(rèn)的master的private key是在目錄:

/etc/salt/pki/master.

將該目錄下的 master.pem 拷貝到備 master 節(jié)點的同一位置,對 master 的public key 文件 master.pub 做同樣的操作,啟用備master節(jié)點,在備節(jié)點接受key。

4、重啟minions:配置完成后,minion將會對主master和備master進(jìn)行核對,并且兩個master都對minion有操作權(quán)限。

注:minion可以自動檢測失敗的master,并且嘗試重連到一個更快的master,將minion端的參數(shù)master_alive_interval 設(shè)置為true,即可開啟該功能。

5、saltstack 狀態(tài)文件的編寫,saltstack上線后,運維工作從復(fù)雜的重復(fù)的服務(wù)器部署和配置工作轉(zhuǎn)移到saltstack狀態(tài)文件的編寫和維護(hù),狀態(tài)文件的編寫要考慮模塊化和通用性,在大批量部署之前要經(jīng)過測試,沒有問題后再部署,以下是一些經(jīng)常用到的測試命令:

(1)查詢網(wǎng)絡(luò)連接情況—是否能連接到客戶端

(2)查詢網(wǎng)卡ip

(3)查詢磁盤空間

還有很多經(jīng)常用到的命令在此就不一一列舉了,Saltstack 可以實現(xiàn)云計算與數(shù)據(jù)中心架構(gòu)編排,Saltstack可以由 zabbix 監(jiān)控事件調(diào)用。

通過Saltstack的 salt-cloud 實現(xiàn)對 docker 和 openstack 等云平臺的支持,配合 saltstack 的mine 實時發(fā)現(xiàn)功能就可以實現(xiàn)各種云平臺業(yè)務(wù)自動擴(kuò)展;

Saltstack可以與CMDB相結(jié)合實現(xiàn)運維平臺化、自動化和智能化。

5.自動化運維方案設(shè)計

5.1自動化運維規(guī)劃圖

提到自動化運維就不能不說ITIL,ITIL即信息技術(shù)基礎(chǔ)架構(gòu)庫(Information Technology Infrastructure Library),主要適用于IT服務(wù)管理(ITSM)。

ITIL為企業(yè)的IT服務(wù)管理實踐提供了一個客觀、嚴(yán)謹(jǐn)、可量化的標(biāo)準(zhǔn)和規(guī)范。

ITIL已經(jīng)成為了IT服務(wù)管理的國際標(biāo)準(zhǔn),而CMDB配置管理數(shù)據(jù)庫(Configuration Management Database)則是實現(xiàn)ITIL最重要的內(nèi)容。

隨著企業(yè)的發(fā)展,對于運維要求越來越高,使用現(xiàn)有的開源工具已經(jīng)不能滿足企業(yè)對于運維的要求,根據(jù)企業(yè)業(yè)務(wù)的發(fā)展與對運維的要求建設(shè)統(tǒng)一的運維管理平臺成為了企業(yè)迫切的需求。

下面是企業(yè)自動化運維總體規(guī)劃圖:

企業(yè)級自動化運維 方案設(shè)計插圖(10)

自動化運維平臺的建設(shè)以ITIL標(biāo)準(zhǔn)為依據(jù),按照先底層后高層的原則先建設(shè)服務(wù)工具區(qū)域的各個運維子系統(tǒng),各個運維子系統(tǒng)通過API的方式對上層提供服務(wù),

最后不同的業(yè)務(wù)平臺去調(diào)用這些服務(wù)接口即可,運維平臺的各個層面建設(shè)要全面符合管理制度的要求。

5.2 自動化運維平臺模塊設(shè)計

自動化運維平臺以ITIL標(biāo)準(zhǔn)為依據(jù)在此規(guī)范上開發(fā)的,第一階段已經(jīng)做到了業(yè)務(wù)流程的標(biāo)準(zhǔn)化,現(xiàn)階段從事件管理子系統(tǒng)開始逐漸完善各個子系統(tǒng),把各種配置當(dāng)作服務(wù)來看待。

CMDB也可以理解成統(tǒng)一的元數(shù)據(jù)庫,比如說機(jī)房信息、服務(wù)器信息、人員信息、服務(wù)信息、業(yè)務(wù)信息以及他們之間的物理和業(yè)務(wù)拓?fù)潢P(guān)系等。

上層的所有系統(tǒng)都應(yīng)該關(guān)聯(lián)到CMDB,以CMDB為中心,變更后的數(shù)據(jù)信息必須實時反饋到CMDB中,各個運維子系統(tǒng)才能看到最新的數(shù)據(jù)信息,確保其他系統(tǒng)能同步這份變更,以達(dá)到統(tǒng)一同步的目的。

因此把CMDB系統(tǒng)當(dāng)作運維的核心系統(tǒng)來對待,有利于后續(xù)各個系統(tǒng)之間的互通。以下是部分模塊的設(shè)計要求:

事件管理:負(fù)責(zé)記錄、歸類和安排專家處理事故并監(jiān)督整個處理過程直至事故得到解決和終止。

事件管理的目的是在盡可能最小地影響客戶和用戶業(yè)務(wù)的情況下使IT系統(tǒng)恢復(fù)到SLA服務(wù)級別協(xié)議(Service-Level Agreement)所定義的服務(wù)級別;

問題與日志管理:通過調(diào)查和分析 IT 基礎(chǔ)架構(gòu)的薄弱環(huán)節(jié)、查明事故產(chǎn)生的原因,并制定解決事故的方案和防止事故再次發(fā)生的措施,將由于問題和事故對業(yè)務(wù)產(chǎn)生的負(fù)面影響減小到最低的服務(wù)管理流程。

在問題管理這部分要做好問題處理過程的日志的功能,對于問題的處理提供查詢的功能,可以追蹤問題以防止類似問題再次發(fā)生。

變更管理:在最短的時間窗口內(nèi)完成基礎(chǔ)架構(gòu)或服務(wù)的變更而對其進(jìn)行控制的服務(wù)管理流程。

變更管理的目標(biāo)是確保在變更實施過程中使用標(biāo)準(zhǔn)的方法和步驟,盡快地實施變更,以將由變更所導(dǎo)致的業(yè)務(wù)中斷對業(yè)務(wù)的影響減小到最低。

可行性管理:通過分析用戶和業(yè)務(wù)系統(tǒng)的可行性需求并據(jù)以優(yōu)化和設(shè)計IT基礎(chǔ)架構(gòu)的可行性,從而確保以合理的成本滿足不斷增長的可行性需求的管理流程。

可行性管理是一個前瞻性的管理流程,它通過對業(yè)務(wù)和用戶可行性需求的定位,使得IT服務(wù)的設(shè)計建立在真實需求的基礎(chǔ)上,從而避免IT服務(wù)運作中采用了過度的可行性級別,節(jié)約了IT服務(wù)的運作成本。

突發(fā)事件:分析業(yè)務(wù)系統(tǒng)的運行狀況和已經(jīng)發(fā)生過的問題日志,掌握系統(tǒng)常規(guī)問題發(fā)生的根源、對于突發(fā)事件做到規(guī)范化的處理流程。

及時發(fā)現(xiàn)、及時解決,強(qiáng)化監(jiān)控監(jiān)管、技術(shù)、備件備品、應(yīng)急措施、方案、策略等相結(jié)合的辦法避免和及時的解決突發(fā)事件。

自動化運維平臺是面向業(yè)務(wù)的調(diào)度平臺,平臺以業(yè)務(wù)為導(dǎo)向協(xié)調(diào)各個子系統(tǒng),指揮底層各個子系為它服務(wù)。

自動化運維平臺的建設(shè)是一個循序漸進(jìn)的過程,根據(jù)業(yè)務(wù)和運維的需要不斷的測試和改進(jìn)才能從根本上改變運維現(xiàn)狀,提升運維工作效率,最終實現(xiàn)自動化運維。

6. 企業(yè)自動化運維方案總結(jié)

企業(yè)的運維工作經(jīng)歷了從最開始的全部人工操作,到后來的大部分人工操作少部分自動化,到現(xiàn)在的自動化運維的過程。

在沒有建設(shè)運維平臺之前,一個新業(yè)務(wù)上線,需要做很多操作,例如DNS變更、LVS變更、OS初始化、自動化測試、持續(xù)部署、持續(xù)反饋、監(jiān)控、業(yè)務(wù)調(diào)用關(guān)系配置等等。

現(xiàn)在新業(yè)務(wù)上線只需要簡單的配置,剩余的工作由平臺協(xié)調(diào)自動完成上線。

使用自動化運維平臺后用戶滿意度從33%上升到95%,同時期IT費用營收占比從4%下降到2.4%。

通過建設(shè)自動化運維平臺實現(xiàn)了對業(yè)務(wù)流程的有效梳理,有效的了解現(xiàn)有的IT資源、運行狀況、可靠性與可用性,使企業(yè)從全局掌握IT資源和資產(chǎn)的詳細(xì)信息,為企業(yè)的決策提供了有力的支撐;

通過建設(shè)自動化運維平臺提高了運維工作效率,以前有很多需要人工參與處理的故障和事件,現(xiàn)在絕大部分由運維平臺自動按預(yù)定的規(guī)則進(jìn)行處理,在運維響應(yīng)時間上有了很大的提升;

通過建設(shè)自動化運維平臺發(fā)現(xiàn)潛在的問題,降低了故障率,運維人員再也不是以前的“救火”隊員了,一些潛在的問題在萌芽階段就被發(fā)現(xiàn)和處理了,避免了故障造成的業(yè)務(wù)中斷;

通過建設(shè)自動化運維平臺有利于故障的快速恢復(fù),通過對以往時間點配置的保存建立配置基準(zhǔn)快照,然后根據(jù)出現(xiàn)故障前后的配置基準(zhǔn)的比對快速的發(fā)現(xiàn)故障的線索和根源,及時找到故障處理辦法恢復(fù)系統(tǒng)運行。

 

相關(guān)案例:

IT運維外包服務(wù)

企業(yè)級運維外包服務(wù)

Kubernetes虛擬化 與 云計算解決方案

企業(yè)信息化建設(shè)