前言:
六月底發生第二台冷氣機溫度降不下來,疑似壓縮機沒有啟動,導致機房溫度將近35度,伺服器不堪負荷,導致多台機器熱當,在此記錄下過程。
◎6月23日(星期四)
機房自動切換的其中一台冷氣機溫度顯示攝氏25度,但是實際使用機房溫度計測量環境溫度,溫度計直飆35度,每台伺服器風扇高速運轉,機器全部嗡嗡叫。
我的處理方式:
打開機房門散熱,手動切換到正常的冷氣機,並使用電風扇高速散熱。最後,到總務處修繕登記系統報修,並將冷氣切換回自動切換模式。
↓報修紀錄
◎6月25日(星期六)
特地回學校到機房看冷氣有沒有修好;一進機房,熱風迎面而來,溫度計直飆40幾度,機器全部嗡嗡叫,導致多台伺服器熱當!
我的處理方式:
奮鬥到晚上6點多,校務資料夾兼列印伺服器勉強上線,想說撐完期末這個大日子,等列印成績單完再下線維修,但伺服器一直提醒有硬碟壞軌,硬碟監控系統不斷的跳出硬碟故障的訊息。最後,再次報修。
↓硬碟故障
◎6月27日(星期一)
總務處修繕系統登記的處理日期,處理情形為:委外處理+處理完畢。(請見上2圖)
我的處理方式:
這時冷氣機還是故障的,所以又手動切換成正常的冷氣機,並使用風扇高速散熱。擔心維修人員不了解,特地在故障的冷氣和自動切換器上貼上說明。
↓故障的冷氣機
↓哭泣的故障伺服器
↓努力的風扇
◎6月29日(星期三)
這時冷氣機還是故障的。
我的處理方式:
到總務處找事務組,第1次不在,第2次事務組在,請她幫忙修繕,事務組長回覆:「已和廠商到機房看過了,廠商說要估價。」
到教務處找主任,告知冷氣故障與伺服器熱當,請主任協助,主任回覆:「會再協助通知總務主任和事務組。」
找資訊組長,告知伺服器硬碟故障,機房備料硬碟只剩1顆,資訊組長回覆:「故障硬碟尚在保固內,可以送修。備料硬碟1顆應該還夠。」
◎7月1日(星期五)
這時冷氣機還是故障的。
我的處理方式:
公告全校:校務資料夾伺服器因為熱當導致硬碟壞軌,預計下午4點下線維修。
下線後,換了1顆硬碟,因為Raid rebuild十分耗時,所以放著慢慢重建,明天星期六再來學校加班。
◎7月2日(星期六)
這時冷氣機還是故障的。
更糟的是,RAID系統居然顯示4顆複寫硬碟相繼損壞,可想而知,這次熱當情形有多麼嚴重。目前只剩2顆在跑(RAID 10),2顆新的需rebuild,但已無備料…。
幸好平日有備份,校務資料最新備份到6月30日,7月1日下線後的資料確定遺失…唉…為了救資料,忙到晚上7點才離開,無奈仍功敗垂成…
回家後,寄信告知教務主任與資訊組上述情形,並請其協助硬碟和冷氣問題,一併附上硬碟型號。
◎7月3日(星期日)
這時冷氣機還是故障的。
教務主任回信並來電,回覆:「7/1全校老師備課所編寫的課程計畫檔案如果遺失,較為棘手。」並告知資訊組長會協助購買硬碟,待星期一到校後主任會再請總務處修冷氣。
資訊組長回信:「會先到NOVA買兩個WD SATA 500GB 7200rpm 16MB buffer到學校,若沒有遇到我,會放在機房桌上。」
星期日上午10點多到機房,4顆新硬碟已經在機房桌上了。
奮鬥到晚上7點多,7月1日資料確定”宣告不治”!
為了讓明天上班校務運作順暢,開始著手將備份資料轉移到另一台伺服器上,又是一項耗時的工程。
回家後遠端連入,設定權限,並在另外一台架設印表機伺服器,明天才能順利列印。
↓RAID故障導致資料損毀
◎7月4日(星期一)
這時冷氣機還是故障的。
雖然放暑假不必到校,但是還是不放心,早上9點多到機房觀察轉移後”校務資料”和”列印”的運作情形。
再跑了一趟總務處幫忙設定網路影印機,沒看見總務主任和事務組長,得知:”事務組長請假10天!!”
回家後,想了想,撥了通電話至教務處,請資訊組長協助再聯絡總務處,並告知:”如果伺服器再熱當,等到冷氣修好,我才要修伺服器。”
下午資訊組長mail回覆:「因為事務與總務主任請假,因此與工友叔叔確認,明天7/5日早上處理。」
◎7月6日(星期三)
教務主任mail告知:「總務處於昨日已請師傅將冷氣修復,現在應可維持兩部輪流運作。」
至此,漫長的【冷氣故障→伺服器熱當→硬碟損壞→資料救援→服務重建】路程終於告一段落!
終於可以不用六日到校修伺服器,也可以放暑假了~~\(^0^)/
無奈….好景不常…
◎7月13日(星期三)
資訊組mail告知:「昨天已確認冷煤再度漏光,而目前已經請廠商維修中,但廠商有強調,因為冷煤管是震裂的,加上機器本身震動幅度很大,很容易再度將管線震裂。詢問總務處是否有機會新購冷氣,所得到的答案是沒辦法只能維修,所以目前靠維修來處理,但可能會再次面臨冷氣停擺的狀況。」
我只能說:「巧婦難為無米之炊。」再好的系統管理遇到熱當,也只能兩手一攤,無語問蒼天。….
◎8月19日(星期五)
總務處林主任告知已更換2噸的新冷氣,感謝林主任的協助!!