備份大型數(shù)據(jù)庫時將會出現(xiàn)的問題
來源:中國政府采購招標網 時間:2008/9/22
根據(jù)伯克利加利福尼亞大學提供的一份資料數(shù)據(jù)顯示,目前數(shù)量增長速度最快的商業(yè)數(shù)據(jù)并不是文件,而是關系數(shù)據(jù)庫的管理系統(tǒng)中所包含的數(shù)據(jù)塊。凡是從事過數(shù)據(jù)備份/容災恢復類工作的人,都知道“將數(shù)據(jù)庫——特別是大型數(shù)據(jù)庫——備份到磁帶庫中、然后再復原磁帶上的文件備份”是一個多么復雜的過程。所以,看到加利福尼亞大學的分析報告,人們或許可以稍稍松了一口氣,由于文件元數(shù)據(jù)在數(shù)據(jù)庫上保存?zhèn)浞,系統(tǒng)可以通過數(shù)據(jù)庫中的文件元數(shù)據(jù)恢復文件。對于普通數(shù)據(jù)塊損壞,可以通過應用程序讓磁頭跳過壞塊重新定位,讀取其他數(shù)據(jù)塊到硬盤中。不過,即使如此,仍然有部分數(shù)據(jù)庫備份問題值得我們深入探討。
比如說:假設一個體積超過單盤磁帶容量數(shù)倍的大型數(shù)據(jù)庫,如果用磁帶來做備份,那么,在備份過程中就需要人為干預進行換帶操作,如果換帶不及時,很容易造成數(shù)據(jù)流失,而且,即使在實驗室理想條件下,磁帶每小時可備份的數(shù)據(jù)量最多也只能達到2TB,倘若這個數(shù)據(jù)庫有好幾個TB的話,單單制作一個備份就需要好幾個小時,這豈不是太費時間了嗎?擁有這樣一個大型數(shù)據(jù)庫的企業(yè),如果需要制作備份的話,是不是只能象服務供應商建議的那樣,只能選擇“磁盤到磁盤”存儲方案、鏡像存儲方案,或者是SAN存儲區(qū)域網絡系統(tǒng)呢?大型數(shù)據(jù)庫的出現(xiàn),是不是徹底地否決了“備份窗口”存在的意義了呢?(注:一個備份窗口指的是“完成一次給定備份所需的時間”。這個備份窗口的長短,是由需要備份數(shù)據(jù)的總量和處理數(shù)據(jù)的網絡構架的速度來決定。)因為,將大型數(shù)據(jù)庫內的數(shù)據(jù)拷貝到磁帶或磁盤上的這段時間內,數(shù)據(jù)庫將處于持續(xù)鎖定的狀態(tài),對于某些企業(yè)用戶來說,備份窗口根本不是什么問題,它們可以在非工作時間來進行備份。不過,隨著數(shù)據(jù)容量的增加,完成備份所需時間也會增加,久而久之,備份就將占用工作時間,值得一提的是,在制作備份的過程中,用戶將無法訪問數(shù)據(jù)庫,F(xiàn)在的許多公司都沒有所謂的非工作時間——他們需要24x7 的網絡訪問能力,這樣留下的備份窗口就非常短,甚至根本就不存在。
好在這些問題終于引起了存儲服務供應商們的高度重視,“信息生命周期管理”(簡稱ILM)的管理概念隨之誕生了。在2003年12月和2004年1月底,EMC Corporation派出專人前往加利福尼亞州坎貝爾,與OuterBay Technologies公司私下進行接洽,而后又將甲骨文(Oracle)公司列為戰(zhàn)略合作伙伴,尋求可將大型數(shù)據(jù)庫內的數(shù)據(jù)信息加以分類的工具和技術——簡單來說,就是將數(shù)據(jù)庫內一些不會再做變更的舊數(shù)據(jù)轉移到第二級存儲磁盤平臺上。
數(shù)據(jù)庫內的參考數(shù)據(jù)
近年來EMC一直活動頻繁,比如說上文中曾提到的,與OuterBay Technologies和甲骨文的合作。EMC對于擴大公司的社交和業(yè)務網絡,有著自己的一套“參考數(shù)據(jù)”理論:人類社會其實就是一個龐大的數(shù)據(jù)庫,每個人都是其中的數(shù)據(jù)項,有一些經常被訪問但很少做修改的數(shù)據(jù),就應該一直放在網絡上,供其它人查詢和參考。但是,如果將這些數(shù)據(jù)一直擺放在主機上,在價值不菲的高性能存儲平臺上占用了一大塊空間,顯然是很不經濟的。
目前,EMC正在尋求一套可將“參考數(shù)據(jù)”理論應用于大型數(shù)據(jù)庫管理的方法,并在該理論的基礎之上發(fā)展出一套容災恢復和業(yè)務可持性計劃供應商們多年來一直在摸索的支持策略。它的核心原理其實非常簡單:當需要備份的數(shù)據(jù)庫體積太大時,它的大部分數(shù)據(jù)(即:不會改變的數(shù)據(jù))也許將無法預存入系統(tǒng)的恢復中心內。如果備份過程突然中斷,磁帶上預存的數(shù)據(jù)就會被加載到磁盤上,然后由IT部門的人送往緊急恢復中心或熱站(hot site)。采用數(shù)據(jù)隔離和預存相結合的方法,災難恢復中心的職員將會帶上數(shù)據(jù)庫中被更改部分的數(shù)據(jù)文件備份,趕往熱站,然后再將這部分數(shù)據(jù)記錄加入到此時已經被修復了的存放未改變數(shù)據(jù)或參考數(shù)據(jù)的數(shù)據(jù)庫內。在極短的時間就可以迅速實現(xiàn)容災恢復。
可以預見得到,這套方案一旦推出,一定會吸引那些已投資購買了磁帶存儲產品的企業(yè)用戶,它們之所以一直沒有更新存儲設備,大概是覺得鏡像存儲的投資太大了,不劃算。而且,該方案肯定會被StorageTek、Quantum、ADIC、Overland、Sony、Breece Hill、Spectra Logic等諸多磁帶庫生產廠商采用,因為它可以增加硬件的附加值,帶來更大的利潤空間。
目前,業(yè)內人士唯一的擔憂是:EMC和其它存儲廠商現(xiàn)在正在研發(fā)的“將數(shù)據(jù)庫中的‘參考數(shù)據(jù)’單獨分離出來”的支持技術具有多高的可行性?能否充分體現(xiàn)數(shù)據(jù)庫的“唯一性”和“差異性”優(yōu)勢。答案只是:也許。