安科瑞電氣股份有限公司 上海嘉定201801
摘 要:結合銀行數(shù)據(jù)中心建設項目,設計銀行數(shù)據(jù)中心機房動力環(huán)境監(jiān)控系統(tǒng),分析銀行數(shù)據(jù)中心機房監(jiān)控對象、搭建系統(tǒng)監(jiān)控架構,給出監(jiān)控實現(xiàn)方法,*后針對運行一段時間出現(xiàn)的問題,提出優(yōu)化措施和建議,對同類工程建設具有一定借鑒意義。
關鍵詞:數(shù)據(jù)中心;動環(huán)監(jiān)控;系統(tǒng)架構;網(wǎng)絡拓撲
0引言
銀行數(shù)據(jù)中心機房的供配電和精密空調等基礎設施多,而設備維護人力資源少,因此增加了基礎設施運維人員工作強度和難度。為及時發(fā)現(xiàn)設備故障并處理,本文設計了動力環(huán)境監(jiān)控系統(tǒng),并針對運行中出現(xiàn)的主要問題給出優(yōu)化措施。
1系統(tǒng)
監(jiān)控對象銀行數(shù)據(jù)中心機房動力環(huán)境監(jiān)控系統(tǒng)(以下簡稱為動環(huán)監(jiān)控系統(tǒng))的監(jiān)控對象可分為三大類:第一是對設備動力系統(tǒng)實時工作狀態(tài)進行監(jiān)控,如供配電系統(tǒng)開關狀態(tài)、UPS和柴油發(fā)電機等設備的運轉參數(shù)和狀態(tài)等;第二是對機房內運行環(huán)境進行監(jiān)測與控制,如溫度、濕度、漏水、氫氣濃度及消防等;第三是對人員設備進出進行監(jiān)控,如門禁、攝像頭、防入侵等安全類設備。而機柜內服務器、交換機、加密機等安全或網(wǎng)絡類硬件設備運行狀態(tài)并未納入,不在本文探討范圍。
2系統(tǒng)架構設計
2.1設計原則
銀行機房動環(huán)監(jiān)控系統(tǒng)設計應遵循“集中化、一體化、智能化"的設計模式,采用高標準的監(jiān)控系統(tǒng)設計原則,實現(xiàn)主動、高效、流程化的監(jiān)控管理。
(1)穩(wěn)定性。動環(huán)監(jiān)控系統(tǒng)作為機房基礎設施“管家",要求24h不間斷提供服務,這不僅依賴動環(huán)監(jiān)控設備供電的穩(wěn)定性,還依靠網(wǎng)絡通信的可靠性。
(2)安全性。動環(huán)監(jiān)控系統(tǒng)信號采集回路應具備良好的保護機制,不會因采集回路故障而造成被監(jiān)控基礎設備誤動作或故障,且系統(tǒng)應具備自檢功能,在基礎設施故障時能及時通過電話或短信等方式告知運維人員設備故障部位、故障性質等。
(3)開放性。動環(huán)監(jiān)控系統(tǒng)應符合開放式設計標準,預留多種對外接口和兼容MODBUS-TCP、OPC、OD-BC、BACNET等標準通信協(xié)議,以實現(xiàn)與第三方廠商設備數(shù)據(jù)的傳輸與交換。
(4)可擴展性。動環(huán)監(jiān)控系統(tǒng)應可擴容及易維護,以適應數(shù)據(jù)中心機房的擴容、監(jiān)控設備增加等變動情形。
2.2系統(tǒng)架構
動環(huán)監(jiān)控系統(tǒng)采用計算機網(wǎng)絡、現(xiàn)代通信技術和控制技術,對機房動力設備及環(huán)境等進行實時監(jiān)控,實現(xiàn)無人值守機房的現(xiàn)代化管理。硬件上采用三層架構:底層為現(xiàn)場設備層,由被監(jiān)控設備、I/O采集模塊等構成;中間層為數(shù)據(jù)采集處理層,由各串口服務器、動環(huán)服務器、交換機等構成;頂層為數(shù)據(jù)應用層,由監(jiān)控平臺或客戶端等終端構成。軟件上采用B/S結構,在機房中通過安裝各種傳感器及數(shù)據(jù)采集設備進行底層數(shù)據(jù)采集,將所有子系統(tǒng)集成在統(tǒng)一的用戶界面下,對各個子系統(tǒng)進行統(tǒng)一監(jiān)視、控制和協(xié)調,從而構成統(tǒng)一的協(xié)同工作的整體。系統(tǒng)架構設計如圖1所示。
圖1動環(huán)監(jiān)控系統(tǒng)架構設計
3系統(tǒng)實現(xiàn)
3.1工程概況
數(shù)據(jù)中心主機房設置在6F,按功能細分為服務器機房一、二、三,網(wǎng)絡機房,配電間A、B;配電間重要斷路器或開關、電量儀、UPS及防雷,主機房內新風機、精密空調及漏水檢測、機柜PDU、溫濕度、防入侵(紅外線檢測)需納入動環(huán)監(jiān)控系統(tǒng)。UPS蓄電池室設置在-2F,柴油發(fā)電機間設置在-1F,三電源切換室設置在1F,運維室設置在7F,消防氣瓶間設置在8F。動環(huán)監(jiān)控系統(tǒng)的監(jiān)控對象見表1。
表1監(jiān)控對象
3.2硬件構成
動環(huán)監(jiān)控系統(tǒng)由2臺服務器(雙機熱備)、2臺客戶端PC機、監(jiān)控大屏、核心交換機(A、B網(wǎng))、視頻匯聚交換機、門禁接入交換機、采集箱及串口服務器等構成。
3.2.1數(shù)據(jù)采集層核心設備
采集箱負責開關量、溫濕度等原始數(shù)據(jù)的采集,是整個監(jiān)控系統(tǒng)的核心,采用深圳計通機架式,大小為2U,可安裝在機柜內,箱內采集模塊通過端子排與被監(jiān)控設備相連。串口服務器采用計通OAO-9000E嵌入式智能管理單元,該設備集數(shù)據(jù)采集、解析、存儲告警于一體,具備正確故障定位能力,可滿足不同廠家設備數(shù)據(jù)信號的接入與“翻譯"。
3.2.2現(xiàn)場設備層
現(xiàn)場設備層的設備分為需接協(xié)議轉換器設備、需提供通信協(xié)議設備、模擬量直集模塊和開關量直集模塊四類。
(1)需接協(xié)議轉換器(串口服務器)的設備包括精密空調、漏水繩、機柜PDU、電量儀、UPS電源、蓄電池、柴油發(fā)電機。這些設備需相應廠家提供通信接口及其開放的通信協(xié)議,以便對各設備運行參數(shù)或狀態(tài)進行監(jiān)測。
(2)需提供通信協(xié)議的設備包括視頻監(jiān)控和門禁子系統(tǒng)。這些設備需相應的廠家提供通信協(xié)議,由動環(huán)監(jiān)控系統(tǒng)進行集成和管理,能實現(xiàn)在動環(huán)監(jiān)控端點擊任意攝像頭調出相應攝像頭的實時監(jiān)控畫面和實現(xiàn)對任意門的開關控制。
(3)模擬量直集模塊。
①溫濕度監(jiān)測:通過在機房內的重要區(qū)域、冷熱通道和機柜內部安裝溫濕度傳感器,實時采集溫濕度的變化情況和熱力分布情況。
②氫氣監(jiān)測:通過在電池間安裝氫氣采集模塊,可實時檢測PPM值是否超標,及時發(fā)現(xiàn)氫氣泄漏的電池隱患;當氫氣PPM達到設定的閾值時,系統(tǒng)發(fā)出報警。
(4)開關量直集模塊。
①重要開關監(jiān)測:通過監(jiān)測配電柜內重要斷路器的輔助觸點狀態(tài),判斷開關的通斷狀態(tài);當監(jiān)測的開關狀態(tài)與設定默認狀態(tài)不一致時,監(jiān)控主系統(tǒng)發(fā)出報警。
②防雷監(jiān)測:通過監(jiān)測防雷器的遙信觸點,實時監(jiān)測防雷器狀態(tài);當監(jiān)測的防雷器狀態(tài)與設定默認狀態(tài)不一致時,監(jiān)控主系統(tǒng)發(fā)出報警。
③新風排煙監(jiān)控:通過在新風和排煙管道中安裝壓差開關檢測壓差信號,監(jiān)測機房內新風機和排煙機的運行狀態(tài),可遠程控制新風機的啟停。
④防入侵監(jiān)測:通過在機房內安裝紅外探頭以監(jiān)測機房內人員移動狀態(tài);當紅外探測器的狀態(tài)異常時,系統(tǒng)發(fā)出報警。
⑤消防監(jiān)測:通過采集消防控制主機報警輸出點的信號,實時監(jiān)測機房內各分區(qū)的消防狀態(tài);一旦發(fā)生報警,系統(tǒng)就自動切換到相應的監(jiān)控界面,火警狀態(tài)圖標變紅且閃爍顯示,同時產生報警事件并記錄存儲。
3.2.3供電與組網(wǎng)動環(huán)監(jiān)控系統(tǒng)硬件
設備的供電需雙路UPS電源,以確保供電可靠性,滿足24h不間斷提供服務的要求;而且重要的硬件設備要求主從配置,如動環(huán)服務器具備雙機熱備功能,利用“雙監(jiān)控系統(tǒng)+雙數(shù)據(jù)庫"模式,保證系統(tǒng)的不間斷運行。
動環(huán)監(jiān)控系統(tǒng)硬件設備的組網(wǎng)要求A、B雙網(wǎng)運行設備逐級匯接模式,網(wǎng)絡設備由POE交換機、接入交換機、匯聚交換機、核心交換機組成。POE交換機負責視頻攝像機的供電和數(shù)據(jù)傳輸;接入交換機使用二層有VLAN功能的交換機,負責采集單元中數(shù)據(jù)收斂;匯聚交換機使用三層交換機,用于匯聚POE交換機數(shù)據(jù),避免二層網(wǎng)絡過大導致環(huán)路,也減輕了核心交換機的數(shù)據(jù)負擔。
動環(huán)監(jiān)控系統(tǒng)的網(wǎng)絡拓撲結構如圖2所示
圖2網(wǎng)絡拓撲結構圖
3.3軟件平臺
動力環(huán)境集中監(jiān)控平臺軟件采用B/S結構,通過在機房中安裝各種傳感器及數(shù)據(jù)采集設備進行底層數(shù)據(jù)采集,外廠家設備需提供通信接口及其開放的通信協(xié)議,進行數(shù)據(jù)“翻譯"處理,通過機房監(jiān)控平臺集中監(jiān)控,全中文、圖形化;界面結構層次清晰,實時反映數(shù)據(jù)狀態(tài)。集中監(jiān)控平臺需要能運 行于中文Windows操作系統(tǒng)。動力環(huán)境集中監(jiān)控平臺軟件采用模塊化設計,可劃分為采集層、處理層、管理層及展示層,如圖3所示。其中,個人工作平臺能提供動環(huán)監(jiān)控主界面、告警事件列表、待辦事項、告警等級統(tǒng)計、PUE實時曲線、基礎設施分類餅狀圖等可自由選擇的個性化定制界面。報表管理可根據(jù)機房管理原有報表格式生成詳細的數(shù)據(jù)記錄報表和數(shù)據(jù)分析報表,存儲格式為Excel或PDF;數(shù)據(jù)存儲時間需長于1年,且具有防篡改功能。軟件交互界面中,動環(huán)監(jiān)控模塊可直觀看到各個機房實時運行狀態(tài),設置機房名稱、設備圖標等超鏈接可直達各子界面,通過溫濕度監(jiān)測、門禁、視頻監(jiān)控、溫度場、漏水監(jiān)測、紅外監(jiān)測、消防監(jiān)測等按鈕可直達各分畫面,并提供基于電子地圖、實時曲線、餅狀圖、折線圖、直方圖等多形式數(shù)據(jù)展現(xiàn)方式,便于運維人員分析設備歷史運行趨勢,以判斷設備狀況。
圖3動力環(huán)境集中監(jiān)控平臺軟件架構圖
系統(tǒng)告警采取短信、電話、現(xiàn)場語音三種報警結合的方式,報警等級分為緊急、重要、一般三個層次,不同級別的報警采用不同報警方式實現(xiàn)報警信息的發(fā)送。無論系統(tǒng)處于任何畫面,都可自動提示告警,顯示告警信息。當一個報警狀態(tài)解除時,系統(tǒng)可自動發(fā)送相應的恢復短信,以便機房管理人員隨時掌握相關動態(tài)。
4系統(tǒng)運行中的問題及優(yōu)化措施
4.1常見問題
動環(huán)監(jiān)控系統(tǒng)運行以來,出現(xiàn)過監(jiān)控平臺數(shù)據(jù)不刷新,監(jiān)控平臺電腦“假死",采集數(shù)據(jù)不準確,系統(tǒng)告警漏報、誤報、頻發(fā)(告警信號抖動)及延遲報警問題。
(1)監(jiān)控平臺數(shù)據(jù)不刷新。這種情況在實際運維工作中*常見,整個監(jiān)控平臺軟件數(shù)據(jù)不刷新或系統(tǒng)中某設備數(shù)據(jù)不刷新,導致運維人員無法收到告警信息。
(2)采集數(shù)據(jù)不準確。這種情況主要體現(xiàn)在監(jiān)控畫面顯示的數(shù)據(jù)與現(xiàn)場設備實際運行數(shù)據(jù)不符,若畫面顯示的數(shù)據(jù)超過告警的閾值就有可能造成系統(tǒng)誤告警或不告警,影響設備的運行安全。如智能儀表部分測點值與系統(tǒng)顯示值不一致或單位不同,將導致該設備失去監(jiān)控。在冷熱通道溫度檢測過程中,監(jiān)控軟件顯示的數(shù)值超過告警上限閾值引發(fā)告警,而運維人員現(xiàn)場檢查后并未超限,造成人力資源的浪費。
(3)實時告警問題。動環(huán)監(jiān)控系統(tǒng)告警漏報、誤報、頻發(fā)、延遲報警及告警信號抖動等問題是困擾數(shù)據(jù)中心運維工作人員的嚴重問題。數(shù)據(jù)中心運維值班人員7×24h應急值班,告警信息誤報、頻發(fā)將給人員造成很嚴重的身體傷害;而告警信息的漏報與延遲將導致設備出現(xiàn)故障時未能及時通知從而導致更嚴重的機房事故。
①告警漏報:告警漏報主要原因是告警級別設置過低或設備通信中斷或設備信息采集故障等導致重要告警信息缺失,未能及時上報運維人員,從而錯失重要告警信息,將導致嚴重后果。
②告警誤報:告警誤報是衡量動環(huán)監(jiān)控系統(tǒng)可用性的重要指標,采集裝置受到電磁干擾或周圍環(huán)境改變、協(xié)議解析有誤、采集裝置故障、儀表故障、板卡端口故障等均會引起誤報,如精密空調四周部署的漏水繩因灰塵或沙土等導致電阻增大從而引起誤報。
③告警頻發(fā):告警頻發(fā)類似于“信息轟炸",可分為兩種情況:一是同一告警信息頻繁多次報送給運維人員,原因是當某一測點觸發(fā)告警時,采集值在告警閾值附近來回波動;二是同一事件觸發(fā)機房多個動力設備同時告警,如機房停電或閃停后恢復,各相應重要開關、電量儀、UPS、機柜PDU等多設備引起的“電話短信轟炸"。④告警延遲:告警信息是否及時上報給運維人員是考驗監(jiān)控系統(tǒng)是否合格的重要指標之一,而上報時間應設置為用戶可選項,如電力閃斷立即恢復的情形,可設置一定延時;而重要信息應能在15s內完成上報。
4.2優(yōu)化措施
(1)監(jiān)控平臺數(shù)據(jù)不刷新問題的解決。運維人員需熟知動環(huán)監(jiān)控系統(tǒng)架構和網(wǎng)絡拓撲,從單點設備故障到網(wǎng)絡故障進行排除,對重要設備必要時可優(yōu)化系統(tǒng)結構或網(wǎng)絡拓撲,對采集設備或裝置進行冗余備份,或對重要監(jiān)控對象通信采用A、B雙網(wǎng)通信。
(2)采集數(shù)據(jù)準確性問題的解決。檢查智能儀表裝置或第三方設備的通信協(xié)議是否準確,與原廠家技術支持核實設備協(xié)議文本正確性,如更換智能儀表未核對通信協(xié)議,將導致數(shù)據(jù)不準確或無法采集。檢查通信故障,首先檢查物理連接是否存在問題,然后對通信配置進行檢查,重點檢查波特率、校驗位、串口的設置等是否存在問題。檢查采集裝置或采集箱等設備、溫濕度探測器等硬件自身是否存在故障,排除設備硬件故障導致數(shù)據(jù)采集不準確的問題。
(3)實時告警問題的優(yōu)化。首先嚴格控制智能設備串接數(shù)量,避免串接設備數(shù)量過多引起數(shù)據(jù)上傳緩慢,進而導致告警延遲。合理配置FSU掃描時間,通過調整動環(huán)設備掃描周期來縮短采集裝置對各個測點的問詢時間,以提高采集速度。其次合理選擇設備測點,對重要測點進行合理選擇和優(yōu)化,避免掃描過多的測點造成采集器負擔過重,進而影響采集效率。另外,運維人員應避免非重要數(shù)據(jù)的掃描占用過多資源,引起采集過慢。再者通過軟件手段控制告警頻發(fā)和非合理數(shù)據(jù)引發(fā)的告警,可增加告警回差屏蔽功能,數(shù)據(jù)采集值超出合理范圍的,通過設置有效的閾值上下限,屏蔽此部分數(shù)據(jù),消除誤告警。電磁干擾在傳輸過程中產生的誤告警,除在軟件端進行有效門限屏蔽外,還可在傳輸線路上套裝抗干擾磁環(huán)以減少干擾。*后采用人工智能等手段增加告警邏輯關系分析和對告警信息進行合理分類。如增加告警溯源功能,劃分主次告警,確定告警產生設備的主從關系,進而對告警信息進行有效優(yōu)化,以減少告警“信息轟炸",同時不漏掉重要告警信息。
5動環(huán)監(jiān)控系統(tǒng)解決方案
通過數(shù)據(jù)中心動環(huán)監(jiān)控系統(tǒng),實現(xiàn)了對數(shù)據(jù)中心的門禁狀態(tài)、水浸狀態(tài),煙霧狀態(tài),視頻狀態(tài),環(huán)境狀態(tài),高低壓配電狀態(tài),設備運行狀態(tài)進行實時監(jiān)測,并進行實時報警,保障數(shù)據(jù)中心正常運行,避免運行環(huán)境的失控導致配電設備運行故障,保證維護人員安全,延長設備使用壽命,減少配電室粗放式管理導致成本過高。同時實現(xiàn)動環(huán)監(jiān)控并對各用能耗能進行能效分析,幫助用戶實現(xiàn)用能效率的優(yōu)化。
5.1系統(tǒng)功能
(1)展示當前數(shù)據(jù)中心總能耗,IT能耗,空調能耗,及其他能耗并且計算出當前數(shù)據(jù)中心實時PUE值,通過儀表盤形式直觀展示。
(2)選擇查看數(shù)據(jù)中心的中低壓配電系統(tǒng)主接線圖,并在一次圖顯示配電系統(tǒng)當前遙測、遙信數(shù)據(jù)和狀態(tài)。實時監(jiān)測各配電柜的電壓、電流等電力參數(shù),變電站的溫濕度、煙感、水浸、門禁等環(huán)境情況。
(3)電氣接點溫度實時監(jiān)測,斷路器觸頭、觸臂、母排和線纜連接等位置安裝無線測溫傳感器監(jiān)測接點溫度,便于提前發(fā)現(xiàn)溫度異常導致的事故。
(4)監(jiān)測各變壓器各項參數(shù),包括負載率、頻率、功率因數(shù)、三相不平衡度等,并且顯示歷時曲線圖,數(shù)據(jù)實時變化。幫助用戶直
(5)電能質量在線監(jiān)測,可以監(jiān)測電流和電壓諧波畸變率、電壓暫升暫降暫中斷等暫態(tài)事件記錄、ITIC容忍曲線等
(6)系統(tǒng)采集UPS輸入、輸出端和旁路三相電壓、電流、有功功率、功率因數(shù)頻率,同時監(jiān)測UPS溫度、蓄電池電壓、當前負載下的剩余時間等數(shù)據(jù)。
(7)展示單體電池電壓、內阻和溫度,預測電池帶載時剩余時間,每節(jié)電池數(shù)據(jù)均可以設置異常報警,及時發(fā)現(xiàn)蓄電池異常。
(8)展示精密配電柜內進線和饋線回路電氣參數(shù),包括電流電壓功率電能以及開關狀態(tài),并可以對數(shù)據(jù)進行報警設置和分級,數(shù)據(jù)取自精密配電柜測量模塊。
(9)展示智能小母線的始端箱和插接箱電氣參數(shù),包括電流電壓、開關狀態(tài)、插接點溫度,并對數(shù)據(jù)進行報警設置和分級。
(10)通過平面圖顯示數(shù)據(jù)中心能源分布,設備分布情況,并顯示設備能耗數(shù)據(jù),點擊平面圖上設備可以進入具體設備監(jiān)控界面。
(11)實時顯示當前數(shù)據(jù)中心PUE值以及歷史PUE曲線。并且顯示各分項用能的用能情況及用能排行。監(jiān)測各變壓器運行及負載情況,給出本月變壓器輸出電能排行。
(12)顯示電能消耗日/月/年報表,并可對具體回路選擇曲線圖、餅圖進行展示。對數(shù)據(jù)中心用電數(shù)據(jù)進行同比、環(huán)比分析比較,查看用電趨勢。
(13)監(jiān)測精密空調的回風溫濕度,出回水溫度,并可以設定精密空調的溫濕度,達到更好的控制效果。
(14)監(jiān)測數(shù)據(jù)中心溫濕度、開關門、水浸、煙霧、噪聲、氣體濃度狀態(tài)等參數(shù)。曲線圖直觀明了,同時支持歷史數(shù)據(jù)查詢
(15)通過列表顯示各類報警事件數(shù)量,通過柱狀圖顯示逐日報警數(shù)量,提供報警總數(shù)以及增長趨勢。
維管理功能,可針對數(shù)據(jù)中心各主要設備進行巡檢派工,消缺,搶修等維護工作。
5.2 動環(huán)監(jiān)控系統(tǒng)選型方案
6結語
動環(huán)監(jiān)控系統(tǒng)在銀行數(shù)據(jù)中心基礎設施設備的運行維護中發(fā)揮重要作用,在一定程度上扮演了運維人員“眼耳鼻"的角色。動環(huán)監(jiān)控系統(tǒng)的正常運行在于7×24h不間斷服務和重要告警信息能及時通知相關運維人員。而動環(huán)監(jiān)控系統(tǒng)穩(wěn)定可靠正確運行的關鍵在于系統(tǒng)架構、供電及組網(wǎng)的設計。在運維過程中,系統(tǒng)難免會出現(xiàn)一些問題,需不斷總結經(jīng)驗、梳理出問題并進行優(yōu)化改進。本文基于銀行數(shù)據(jù)中心動環(huán)監(jiān)控系統(tǒng)建設實際出發(fā),對該系統(tǒng)進行設計并實現(xiàn),同時對運行出現(xiàn)的問題進行合理優(yōu)化,結果證明該策略的可行性。
【參考文獻】
【1】萬立勇. 數(shù)據(jù)中心機房動力環(huán)境監(jiān)控系統(tǒng)設計及優(yōu)化探究[J]. 電工技術,2022(15):165-167.
【2】李可,王甲甲.電力企業(yè)數(shù)據(jù)中心基礎設施運行管理平臺設計[J].數(shù)字技術與應用,2021(39):196-197
【3】安科瑞企業(yè)微電網(wǎng)設計與應用手冊2022.5版