解析數(shù)據(jù)中心應該如何預防和糾正服務器制冷故障?

 海洛斯動態(tài)    |      2019-06-17
網(wǎng)絡基礎設施設計是一個錯綜復雜的過程,每一個細小的決定可能都會影響到數(shù)據(jù)中心的服務器,其中最容易被忽視的是服務器制冷需求,不是誤判就是嚴重低估,這種失誤在各種環(huán)境中都時有發(fā)生。歷史經(jīng)驗表明,不斷緊縮的IT預算迫使數(shù)據(jù)中心忽略關鍵的制冷和溫度控制需求,即便是大型數(shù)據(jù)中心有時也是這種情況。只有有效地預防服務器制冷故障,才能確保運行在服務器上的應用永不掉線,企業(yè)才能真正地節(jié)省開支。那么如何做好服務器的制冷工作,發(fā)生故障時如何處理是好呢?


  海洛斯精密空調服務器制冷量


  在處理服務器制冷基礎設施中的故障前,必須要了解制冷系統(tǒng)是如何工作的,以及究竟需要多少制冷量,制冷與數(shù)據(jù)中心擺放的電氣設備數(shù)量緊密相關,預期的電力消耗可以根據(jù)設備上標注的安培數(shù)進行計算,安培數(shù)越大就表示需要更多的制冷量。最簡單的計算方法是知道服務器的耗電量(每臺服務器或所有服務器),通常,一臺單CPU的服務器需要1安培或120瓦(1安培x120伏=120瓦),雙CPU(如至強或AMD)服務器需要2安培或240瓦,最后乘以每瓦需要的制冷量(約3.4 BTU)就可以計算出服務器需要的制冷量了。


  例如,一臺120瓦的服務器需要408 BTU的制冷量(120x3.4),使用這個方法計算出所有服務器需要的制冷量,并向取得認證的HVAC顧問咨詢計算結果是否可行。


  海洛斯精密空調處理服務器制冷系統(tǒng)的故障


  服務器制冷系統(tǒng)發(fā)生故障時,最重要的是迅速做出決定,并采取行動,正確的行動將讓系統(tǒng)正常運行的時間更長,并防止再發(fā)生更嚴重的故障。下面這些指導方針在發(fā)生制冷系統(tǒng)故障時可以參考:


  1、了解誰是維修人員,以及如何讓他盡快抵達現(xiàn)場。


  第一個電話應該打給HVAC工程師,盡可能詳細描述問題,這樣有助于工程師判斷是否需要帶零部件,在故障發(fā)生的第一時間,必須分秒必爭。


  2、了解并預測如果制冷設備發(fā)生故障將會產(chǎn)生什么影響


  例如,在機房溫度上升到臨界值(>120℉)之前,服務器可以撐多久,這樣可以算出留給維修人員的最大時間,以及是否需要啟動備用系統(tǒng)。


  3、與相關公司就關鍵環(huán)境簽署服務水平協(xié)議


  如果沒有簽,最好準備一套便攜式制冷系統(tǒng)。例如,Tripp Lite的SRCOOL12K就是專門為緊急制冷而設計的,它可以提供大約12K BTU制冷量,有些地方緊急制冷設備非常昂貴,可以短時間租用。如果機房溫度達到臨界值之前只有幾小時的時間,你可能將要面臨財政上的損失。


  4、關掉非必需的服務器


  開發(fā)服務器通常是用電大戶,在生產(chǎn)期間它們無需運行,還有測試服務器,以及所有非必需的服務器都應該統(tǒng)統(tǒng)關掉。


  5、如果機房溫度上升到快達到臨界值時,最好打開門窗,總之想法降低機房的溫度即可,如果戶外溫度比室內溫度要低,可以使用風扇將熱空氣吹出去。


  6、最后一條是處理制冷系統(tǒng)故障時最重要的一條:確保提前做好所有數(shù)據(jù)的備份工作。


  如果提前做好了制冷系統(tǒng)故障處理應急預案,當真正的故障發(fā)生時將會發(fā)揮巨大的作用。如果你知道你的服務器等不到故障解除就要關掉,最好提前啟動遠程備用數(shù)據(jù)中心,并做好轉移的準備。企業(yè)的應急計劃應保證任何情況下業(yè)務的正常運轉,即使是非常緊急的情況也應該如此。此外,還應該制定災難恢復計劃,在突發(fā)事件等緊急情況下,可以有序地將整個數(shù)據(jù)中心上的業(yè)務轉移到備用數(shù)據(jù)中心。


  海洛斯機房精密空調服務器制冷冗余


  一個制冷設備發(fā)生故障不應該將整個數(shù)據(jù)中心陷入烤箱,如果制冷系統(tǒng)做了冗余,并有相應的故障轉移計劃,你就可以慢慢等維修工程師上門。


  最基本的冗余制冷方法是n+1,但很大一部分取決于制冷需求和公司的預算,對于一個中等規(guī)模的數(shù)據(jù)中心(約1000平方英尺),可選的制冷方案有多種,例如,你可以給服務器機房部署一個1.5噸位的AC設備,再加一個1噸位的設備作為備用,這些裝置可以負載均衡。


  ESPO的網(wǎng)絡架構師David Langlands說:“對于中等規(guī)模的環(huán)境,最好找個獲得認證的HVAC專家交流交流,如果資金允許,一個完整的n+1冗余環(huán)境在給定時間內將有3-4個制冷裝置在運行,這意味著你的制冷系統(tǒng)將可以保持100%可用”。


  對于大型數(shù)據(jù)中心(大于5000平方英尺),制冷需求有所不同,相對于中小型數(shù)據(jù)中心,大型數(shù)據(jù)中心一般都會加入預防制冷故障的設計,只有這樣,不管是正常例行維護還是故障處理,即便是在業(yè)務高峰期,即使有多套系統(tǒng)在運行,都有充足的維修時間保證。諸如艾默生電氣或一些知名獨立顧問都可以幫助你設計具有冗余的服務器制冷解決方案。


  海洛斯精密空調大型數(shù)據(jù)中心一般都采用以下這些制冷技術:


  抬高地板下面的空間,增強冷空氣流動。


  在服務器之間的空隙處加裝擋板,提高空氣流動效率。


  整個機房的空氣全部來源于冷通道,所有熱空氣全部從熱通道排除去,對于大型機房,還應安裝多條冷熱通道。


  安裝在屋頂?shù)睦鋮s器將乙二醇通過封閉的管道推入到數(shù)據(jù)中心,在數(shù)據(jù)中心循環(huán),以達到降溫的目的。


  使用AC型鼓風機將通過乙二醇冷卻的空氣吹入服務器機房。


  還有其它種類的制冷設備和技術,最好還是聽聽HVAC專家的意見,他們可以幫助你選擇最合適的產(chǎn)品。


  海洛斯精密空調服務器制冷最佳實踐


  最后,我們總結了幾個處理數(shù)據(jù)中心制冷問題的重要原則:


  在快速撥號組里加入HVAC專家的號碼。有制冷冗余就緒計劃。


  監(jiān)控溫度,并建立一個系統(tǒng)記錄溫度變化情況,當服務器溫度超出警告閥值時及時提醒,AVTECH TemPageR就是這樣的系統(tǒng),它會以日志和圖形的方式展示溫度值,這個200美元的設備簡直千值萬值。


  除了溫度外,還要監(jiān)控濕度,不要讓服務器機房結冰。


  查看所有水流的去向,不管是用滴水盤還是水路由方法,只要將水流引出機房,不滲漏即可。