方案之道:機(jī)房搬遷

2020-11-06 15:02:15 編輯: 云巔英雄 來源:中信云
前言
    機(jī)房搬遷,是運(yùn)維工作中非常艱巨的工作,需要有資產(chǎn)管理、配置管理、應(yīng)用關(guān)聯(lián)系統(tǒng)這些基礎(chǔ)信息,需要存儲(chǔ)、網(wǎng)絡(luò)、服務(wù)器這些設(shè)備搬遷的方案,需要項(xiàng)目管理、廠商管理、溝通管理這些軟技能,是一個(gè)綜合性重大任務(wù)。自己經(jīng)歷過3次大的搬遷,將一些心得總結(jié)一下。
批次
    搬遷的核心目標(biāo)是減少對(duì)業(yè)務(wù)的影響。首要的、也是最重要的任務(wù)是確認(rèn)批次。銀行傳統(tǒng)架構(gòu)是圍繞著存儲(chǔ)的災(zāi)備技術(shù),建立的兩地三中心架構(gòu)。確認(rèn)批次,一般是先要?jiǎng)澐址?wù)器群,從一個(gè)存儲(chǔ)設(shè)備開始,確認(rèn)與之關(guān)聯(lián)的交換機(jī)設(shè)備,再到所連接的服務(wù)器。 還有一個(gè)維度是圍繞網(wǎng)絡(luò)設(shè)備。搬遷前一般在新機(jī)房,預(yù)先搭建一套新網(wǎng)絡(luò)設(shè)備,但如果要遷移原有的網(wǎng)絡(luò)設(shè)備、波分設(shè)備,那就要圍繞這網(wǎng)絡(luò)設(shè)備,構(gòu)建一個(gè)服務(wù)器群。
 
     決定批次的另一個(gè)要素,是重要程度排序,將7*24的關(guān)鍵業(yè)務(wù),作為核心考慮要素,以縮短其停機(jī)時(shí)間為目標(biāo),設(shè)計(jì)搬遷計(jì)劃。
 
    第三點(diǎn),是項(xiàng)目管理中的最長(zhǎng)路徑問題。一般關(guān)機(jī)順序是,分區(qū)關(guān)機(jī)、服務(wù)器管理、存儲(chǔ)關(guān)機(jī);物理搬遷,開機(jī)時(shí)是存儲(chǔ)開機(jī)、物理機(jī)開機(jī)、小機(jī)開機(jī)。這樣,就要將最關(guān)鍵系統(tǒng)從關(guān)機(jī)時(shí)間到開機(jī)時(shí)間的這個(gè)時(shí)間,作為關(guān)鍵路徑考慮。
 
其他原則:
1、每次搬遷數(shù)量在“可控”范圍內(nèi),盡量做到批次時(shí)間不重疊,保障大家“一次只做一件事,一次性做好”
2、與搬遷公司對(duì)接,確認(rèn)好搬遷批次,與車輛批次的關(guān)系。
 
四線問題
    搬遷工作,最繁重,也是最容易出問題的,就是四線問題:網(wǎng)線、光纖線、電源線、內(nèi)部連線。這是對(duì)數(shù)據(jù)中心日常的配置管理的一次大考,是機(jī)房準(zhǔn)備工作是否充分的一個(gè)核心考察項(xiàng),也是對(duì)現(xiàn)場(chǎng)組織能力、應(yīng)變能力的一大考驗(yàn)。
1、網(wǎng)線:核對(duì)原機(jī)房的IP和信息點(diǎn),在新機(jī)房申請(qǐng)信息點(diǎn),布放網(wǎng)線,測(cè)試網(wǎng)線,搬遷后插網(wǎng)線,網(wǎng)線綁扎,開機(jī)后測(cè)試IP、測(cè)試連通性。這一長(zhǎng)串圍繞著網(wǎng)線的工作,是整個(gè)搬遷工作中耗時(shí)最長(zhǎng)的工作。尤其現(xiàn)在是云計(jì)算時(shí)代,使用了大量的trunk替代了傳統(tǒng)的access,給信息點(diǎn)測(cè)試帶來了很大的難度。
 
2、光纖線:機(jī)房中插線最密集的設(shè)備,是光纖交換機(jī);決定某個(gè)系統(tǒng)搬遷成功的最關(guān)鍵要點(diǎn),是數(shù)據(jù)庫能正常連接到存儲(chǔ);數(shù)據(jù)中心最難維護(hù)的配置管理,是存儲(chǔ)、到交換機(jī)、到系統(tǒng)、到災(zāi)備之間的關(guān)聯(lián)關(guān)系(相對(duì)于服務(wù)器等設(shè)備,業(yè)界存儲(chǔ)管理的工具最缺乏)。光纖線插的有問題,將大大延緩系統(tǒng)啟動(dòng)的時(shí)間;光纖線差錯(cuò),已經(jīng)開機(jī)的系統(tǒng)將無法識(shí)別存儲(chǔ),需要在光纖鏈路恢復(fù)后,重啟掃盤。
 
3、電源線:數(shù)據(jù)中心一般很重視網(wǎng)線和光纖線,都有相應(yīng)的標(biāo)簽規(guī)范。但電源線往往不做標(biāo)簽,簡(jiǎn)單綁扎在一起。但如果一個(gè)機(jī)柜中出現(xiàn)部分設(shè)備搬遷,部分設(shè)備不搬,沒有電源線標(biāo)簽,將給拔電源線帶來很大麻煩。
 
4、內(nèi)部連線:小機(jī)、SAN存儲(chǔ)設(shè)備都有大量的內(nèi)部連線,需要專業(yè)的廠商來布放、插拔、需要留出足夠的時(shí)間,例如某高端存儲(chǔ),搬遷前后,線纜的相關(guān)工作需要2-3小時(shí)。
 
應(yīng)急預(yù)案
    運(yùn)維工作,是一個(gè)典型的逆向思維過程,所有的變更,都以失敗為假設(shè)前提;搬遷的所有任務(wù),都以出問題為假想指標(biāo),尤其是每個(gè)關(guān)鍵任務(wù),都需要準(zhǔn)備應(yīng)急預(yù)案。以下是我們常使用的應(yīng)急場(chǎng)景。
 
1、存儲(chǔ)無法關(guān)閉。
2、搬遷后,存儲(chǔ)無法啟動(dòng)。將影響整個(gè)搬遷進(jìn)度,影響關(guān)鍵系統(tǒng)的開機(jī)時(shí)間。
3、服務(wù)器無法啟動(dòng)。
4、數(shù)據(jù)損壞。  需要保障所有系統(tǒng),搬遷搬遷前有完整的數(shù)據(jù)備份。
5、少搬設(shè)備,應(yīng)該搬遷的未搬。
6、多搬設(shè)備,不應(yīng)該搬遷設(shè)備被下電。
7、誤操作,例如碰到不搬遷設(shè)備的線纜。
8、網(wǎng)絡(luò)信息點(diǎn)不通。
9、光纖鏈路不通。
10、硬件故障。
11、 機(jī)房中沒有手機(jī)信號(hào)。
 
無法啟動(dòng)問題
    服務(wù)器無法啟動(dòng),是搬遷中一個(gè)重大問題,除了常見的硬件損壞外,還有很多可能的原因,以下是2個(gè)例子。
 
問題1:搬遷后,某小機(jī)的分區(qū)不能啟動(dòng)。
分析:通過HMC檢查,發(fā)現(xiàn)啟動(dòng)過程中hang死,檢查啟動(dòng)信息,發(fā)現(xiàn)找不到硬盤,而2塊硬盤同時(shí)出問題不太可能。
解決:每個(gè)小區(qū)分區(qū)有1個(gè)SAS卡,SAS松動(dòng),造成2塊硬盤都找不到。
 
問題2:搬遷后,某PC服務(wù)器不能ping通。
解決: 1、ping不通原因是靜電導(dǎo)致網(wǎng)卡通信異常,釋放靜電后解決。
2、重啟后,服務(wù)器依然無法啟動(dòng),原因是光驅(qū)里有光盤,第一啟動(dòng)項(xiàng)是光驅(qū),將光盤彈出后,可以恢復(fù)啟動(dòng)。
 
預(yù)防:
1、配置console方式,實(shí)現(xiàn)帶外管理,這樣可遠(yuǎn)程處理不能啟動(dòng)問題:對(duì)于PC服務(wù)器,通過BMC配置LIM;對(duì)于小機(jī),配置HMC;對(duì)于虛擬機(jī),為低權(quán)用戶用戶增加console權(quán)限。
2、常見無法啟動(dòng)原因:有光盤并設(shè)置了光盤啟動(dòng)、有磁帶并設(shè)置了磁帶啟動(dòng)、小機(jī)sas線松動(dòng)。
溝通問題
   現(xiàn)在是微信時(shí)代,搬遷準(zhǔn)備階段,我們會(huì)建立搬遷群進(jìn)行項(xiàng)目組內(nèi)溝通,將搬遷廠商、設(shè)備廠商、管理員、機(jī)房人員等等相關(guān)人員都加入進(jìn)來,進(jìn)行溝通協(xié)助。
    搬遷開始前,準(zhǔn)備搬遷話術(shù),匯報(bào)路徑、并進(jìn)行桌面演練。 其中話術(shù)主要包括3類。(1)【信息發(fā)布】 (2)【信息反饋】 3【問題反饋】。為了便于管理,外每項(xiàng)任務(wù)都進(jìn)行編號(hào)。
 
  其中對(duì)于容易出現(xiàn)歧義的操作,要統(tǒng)一話術(shù),例如對(duì)于小機(jī)的開關(guān)機(jī)。
1、管理員關(guān)機(jī):系統(tǒng)管理員在操作系統(tǒng)中運(yùn)行shutdown。
2、系統(tǒng)組關(guān)機(jī): HMC管理員通過HMC關(guān)閉整臺(tái)服務(wù)器
3、下電: 機(jī)房拔掉機(jī)器電源
4、加電:機(jī)房給服務(wù)器插上電源線
5、開機(jī): HMC管理員激活主機(jī)
6、啟分區(qū):HMC管理員啟動(dòng)分區(qū)
 
另外,對(duì)于機(jī)房中信號(hào)不好的問題,要提前準(zhǔn)備應(yīng)急的手機(jī);對(duì)于手機(jī)沒電問題,要準(zhǔn)備移動(dòng)充電器。
 
腳本化
    搬遷一般系統(tǒng)很多,搬遷后的系統(tǒng)比對(duì),是一個(gè)非常重要的環(huán)節(jié),可以發(fā)現(xiàn)潛在的問題。目前我們是通過搬遷秦通過腳本抓取數(shù)據(jù),搬遷重啟后,通過腳本進(jìn)行比對(duì),全面檢查各類問題。以下是腳本的一些考慮因素:
 
1、針對(duì)Unix和linux,需要考慮各版本差異,例如RHEL5月RHEL6的ls的輸出的項(xiàng)目不同,會(huì)造成腳本讀取的目錄名出現(xiàn)問題。
2、腳本健壯性,要求可重復(fù)執(zhí)行,尤其是搬遷后的比對(duì)數(shù)據(jù),要解決重復(fù)執(zhí)行問題。
3、要比對(duì)靜態(tài)配置,過濾掉動(dòng)態(tài)輸出,例如netstat中的動(dòng)態(tài)信息,lsattr的busintr信息都要過濾掉。
4、AIX重啟后執(zhí)行prtconf,會(huì)出現(xiàn)分隔符不同的問題。
5、當(dāng)比對(duì)腳本失效時(shí),需要有手工快速進(jìn)行比較。  diff <目錄A> <目錄B>
6、服務(wù)器重啟后,errpt有重啟的提示,diff比對(duì)會(huì)報(bào)錯(cuò)。需要過濾重啟記錄,或者只抓取PH,PS類型的告警比對(duì)。
7、對(duì)于小機(jī),lsdev的輸出有從available變?yōu)閐efine狀態(tài)的情況, 包括磁帶、CDROM等。
8、對(duì)于外置存儲(chǔ)的檢查,需要通過lspv檢查磁盤信息,通過powermt檢查鏈路信息。
9、如果搬遷的是災(zāi)備系統(tǒng),需要考慮VG是否自動(dòng)激活,文件系統(tǒng)是否自動(dòng)mount的因素。
 
項(xiàng)目管理
   對(duì)于搬遷,需要選擇一個(gè)強(qiáng)有力的項(xiàng)目經(jīng)理,進(jìn)行整體把控。
   搬遷過程中,需要在各個(gè)時(shí)間斷,在機(jī)房和變更室,都有牽頭人進(jìn)行整體進(jìn)度把控。
對(duì)于搬遷的職責(zé)界定,必須清晰明了。最容易出現(xiàn)糾紛的,是搬遷廠商和維保廠商不是一家,設(shè)備設(shè)備誰來關(guān)機(jī),誰來加電,硬件故障如果界定責(zé)任等。
   對(duì)于各方面的協(xié)調(diào)工作,需要建立一個(gè)溝通計(jì)劃,包括總控表、定期開會(huì)、核心團(tuán)隊(duì)等。
   機(jī)房環(huán)境準(zhǔn)備:機(jī)柜上架圖、用電量評(píng)估、線纜準(zhǔn)備、存儲(chǔ)做電、搬遷用的電梯等準(zhǔn)備。
   標(biāo)簽:對(duì)于搬遷的設(shè)備、搬遷涉及的機(jī)柜都制作標(biāo)簽。
本站文章均為華創(chuàng)云鼎摘自權(quán)威資料,書籍,或網(wǎng)絡(luò)原創(chuàng)文章,如有版權(quán)糾紛或者違規(guī)問題,請(qǐng)即刻聯(lián)系我們刪除,我們歡迎您分享,引用和轉(zhuǎn)載,我們謝絕直接復(fù)制和抄襲!感謝...
我們猜你喜歡