首頁>網(wǎng)上期刊>期刊名稱>期刊內容> 正文

有備無患

2006-5-15 11:23 David Taylor/文 景明譯 【 】【打印】【我要糾錯

  災難恢復(disaster recovery ,DR)和運營持續(xù)性(business continuity BC)是IT刊物上經(jīng)常提到的兩個話題。一般而言,如果系統(tǒng)出現(xiàn)了嚴重故障,IT部門會使用DR程序對其進行修復。而如果一家公司發(fā)生了運營網(wǎng)絡中斷,人們通常就會想到是某些軟件或者硬件出了問題。漸漸地,人們會將硬件做得更可靠耐用,以減少故障,這使得多數(shù)備份設備成為多余的。現(xiàn)在很少有企業(yè)會把錢投在那些可以防止系統(tǒng)中斷的硬件上了。但軟件故障依然經(jīng)常發(fā)生,特別是在進行系統(tǒng)升級等調整過程中,這樣對軟件進行測試、備份并實施應急計劃就顯得十分重要了。同時,硬件成本費用的不斷下降,使得建立一套獨立的檢測系統(tǒng)更為可行,甚至還可以將其作為備用系統(tǒng)使用。

  現(xiàn)在,互聯(lián)網(wǎng)上的黑客攻擊、間諜軟件、病毒程序已經(jīng)取代其他問題成為造成IT系統(tǒng)故障的主要危險。編寫病毒程序和編寫用以防御和清除這些病毒的程序,成為一個“貓捉耗子”式的游戲。適當?shù)陌踩浖统绦蚣词共荒軓母旧舷到y(tǒng)崩潰的危險,但也盡可能使危害減至最小。

  現(xiàn)在IT故障已經(jīng)不太可能再中斷正常商業(yè)運營了?赡茉斐赏{的情況有,諸如電力中斷之類的公共服務故障、火災和盜竊。盡管恐怖主義威脅更容易引起媒體的關注,但據(jù)統(tǒng)計,一次恐怖襲擊的損失遠遠低于一次大范圍的公共服務故障所造成的損失。想一想即使只是一天的停電對你的商業(yè)運營所造成的沖擊就知道了。

  現(xiàn)在人們大多已經(jīng)意識到IT災難恢復程序不能被孤立于核心商業(yè)活動之外,在IT恢復計劃中需要考慮許多組織建構問題。如果同時有幾個系統(tǒng)出現(xiàn)故障,應該先修復哪一個系統(tǒng)?正常的商業(yè)運營對系統(tǒng)恢復正常的時間要求有多短?IT人員可以對這些問題作出判斷,并采取相應的備份方法。對非關鍵系統(tǒng)的恢復采用速度較慢但成本低廉的方法,而將更多的時間和精力花在最核心領域中的系統(tǒng)“熱備份”(hot standby)上。

  你還需要考慮的問題是,如果辦公室里的物品在火災中全部損毀,你的公司是否還能繼續(xù)運營下去?你能在最短的時間內重新找到那些保險單據(jù)、客戶詳細的聯(lián)系方式、重要文件、基本辦公用品和其他備用辦公地點嗎?這些并不屬于IT恢復計劃的一部分,但卻是企業(yè)持續(xù)運營的關鍵要素。

  那么能做些什么?第一步,每個企業(yè)都需要有適當?shù)谋kU措施和現(xiàn)場監(jiān)控。你的突發(fā)事件預案可以防止火災或者盜竊,但是能夠防止水災嗎?如果是在一層辦公,你也許會認為自己高枕無憂,但或許二樓的廁所和廚就正對著你的服務器呢?你可以安裝各種預防設備來幫助你阻止上述災難的攻擊。其中必需的當然要有自動警報器。在向跟保險公司報告說你安裝了警報器時,你必須確定它們是在正常工作的。因為如果火災是發(fā)生在周五晚上大家都擁向酒吧時,而其原因是某位同仁忘了開啟警報系統(tǒng),這種情況下保險公司會拒絕賠付你的損失。

  下一步是寫一份書面應急計劃。IT計劃需要達到相當?shù)膶I(yè)水準,并應專設一章放在通用的持續(xù)經(jīng)營(BC)計劃中。這兩個計劃都應設置一些情景模擬環(huán)節(jié),以專門研究如何因應某些突發(fā)事件。在BC計劃中,IT計劃可能是最為重要的,但不應該只是由IT部門來包攬這一計劃。應安排一位業(yè)務經(jīng)理參與整個計劃的制定過程,他既要負責及時更新和檢測計劃的實施過程,又要負責對計劃所必需的有關環(huán)節(jié)進行溝通協(xié)調。如果沒有人清楚BC計劃在哪里、它的內容是什么,那么再完美的BC計劃也是無效的。

  BC計劃應該包括的內容:

  IT恢復程序的主要工作任務——具體到系統(tǒng)運轉和工作流程。

  如何盡快定購替代性的IT設備、軟件、文具、臨時職員等。

  如何聯(lián)系所有職員。

  在系統(tǒng)恢復期間,企業(yè)的經(jīng)營目標是什么?例如,你是打算根據(jù)現(xiàn)有訂單在較低的產(chǎn)量水平上進行交易,還是想要盡快恢復正常交易,并尋求新的訂單?

  實踐步驟:

  定期備份你的商業(yè)信息,遠離公司的主體辦公區(qū)。保留一箱子基本辦公用品,如文具,打印出來的員工電話號碼、客戶和供應商具體聯(lián)系方式和銀行信息。把這個備用箱放在主體辦公區(qū)之外一個容易找到的地方,并定期更新。

  將所有關鍵的操作做成清晰的書面指南。如果一直都由某位會計人員管理月末薪水冊,而其他人都不知道如何操作,那么在緊急情況下其他人如何接替他的工作?

  準備一份能夠提供臨時工作人員、IT設備和可能會需要的其他備用品的公司名單,如果可能的話,在缺少關鍵文件或者沒有傳真機發(fā)送書面定單的情況下,這些公司最好可以按照口頭約定提供上述備用品。

  你也許還要找到一家愿意簽訂BC互惠協(xié)議的公司。在你遇到突發(fā)事件時,這家公司將為你提供辦公地點、電話和計算機等。顯然,選擇一家與你挨的不是太近的公司可能更為明智。

  小公司可能特別需要額外的工人來度過危機,這就需要準備一份可以招之既來的臨時人員和自由職業(yè)者的名單。

  如果你不需要為服務提供系統(tǒng)安排專門的置放地點并加以管理,那么托管服務(Managed services)可以提高你的IT效用并縮短恢復時間。備份、人力資源系統(tǒng),甚至發(fā)送E-mail都可以由專業(yè)服務供應者遠程操作。在你的IT知識和資源有限的情況下,全套的托管服務也許是一個明智的選擇。

  為了檢驗你的BC計劃是否可行,或者就要啟動你的BC計劃時,請列出各種嚴重的災難場景,并制定出應對措施來。以下情景供您參考。

  情景一

  星期二早上6點,在你辦公室附近的大街上,一輛滿載有毒化學物質的油罐發(fā)生泄漏。你的辦公大樓處于須疏散區(qū)域,警方禁止任何人穿越設置好的警戒線。公司的員工不能進入辦公室,也沒有人知道清除這些泄漏物質需要多長時間。

  你能得到所有員工的聯(lián)系電話嗎?

  你有沒有位于警戒線之外的集合地點?

  你能采取遠程登錄的方式進入你的系統(tǒng)開始工作嗎?

  情景二

  你到達辦公室后發(fā)現(xiàn)頭天晚上修路時切斷了這條街區(qū)的主要電力線。電力公司估計要在2天后才能恢復供電。你沒有工作用的電腦(因此也不能收E-mail)、電話和傳真機。

  你的公司能經(jīng)得住這么長的經(jīng)營中斷期并成功存續(xù)下來嗎?

  你需要通知你的重要客戶乃至所有的客戶嗎?

  你現(xiàn)在無法使用的電腦上儲存的客戶具體聯(lián)系方式有沒有備份?

  情景三

  星期四下午3點,你的辦公大樓發(fā)生了嚴重的火災。人群已經(jīng)成功疏散,且沒有人員傷亡,但救火隊已經(jīng)將數(shù)噸的水灌入大廈。大部分IT和通訊設備,還有所有文件都因此而遭受破壞。辦公地點在一周之內,甚至一月之內都不能使用。

  你有備用的辦公地點嗎?

  你所有的公司信息是否都已備份,并且存儲在遠離工作地點的地方?

  你能輕松恢復你的備份信息嗎?

  資料來源:London Prepared.

  真實的緊急事件:

  你可能認為我描述的種種情景不會發(fā)生在你身上,回想一下過去幾年發(fā)生的嚴重事故吧。請用任何可以引起媒體關注的事故作為情景來模擬檢驗你公司的BC計劃。

  2003年8月14日,覆蓋北美大部分地區(qū)的電力中斷事故估計造成多達60億美元的損失。電力中斷時間超過5天。

  2004年2月12日,由于一張英國電信控制卡發(fā)生故障,造成英國西北部和中部地區(qū)的70000個寬帶用戶的線路中斷,這場事故從上午9:30持續(xù)到第二天下午4:30.

  2004年3月29日,一場火災損壞了曼徹斯特的一條英國電信主電纜,致使13萬個家庭和公司的電話不通,網(wǎng)絡中斷。幾天后仍然有一半的家庭和公司沒有恢復通信服務。

  2005年12月11日,英國Hemel Hempstead鎮(zhèn)的一家加油站發(fā)生爆炸。附近的許多房屋嚴重毀壞,所有窗戶都被炸飛了。如果爆炸不是發(fā)生在正常辦公時間之前,還會有更為嚴重的人員傷亡。

  這是一些占據(jù)新聞頭條的事故。每天還有許多不是那么引人注目的事件發(fā)生。

 。ㄓ⑽脑目怯贑IMA的出版物Financial Management)