數據庫
SQL Server 2000 由 MSIB 2.0 及其依賴項用于連接到數據庫上。 由于數據庫服務器是運行在平臺操作系統和服務頂部的,因此存在很多引起故障的原因,包括:
文件/磁盤系統失效
網絡故障
數據庫應用程序故障
服務器故障
建議采用的解決方案
建議采用兩種 Windows 2000 高可用性解決方案:
Microsoft 群集服務 (MSCS)。 這種解決方案適用于 MSIB 數據庫服務器。 這種解決方案可以提供可靠性,不過卻不能提供額外的可擴展性,這是因為其工作負荷并不是分布式的。
網絡負載均衡(NLB)。 這種解決方案適用橫向擴展模式。 在這種模式下,多個數據庫服務器在一個單一的虛擬 IP 地址之下進行了負載均衡。 一般情況下這些數據庫服務器是作為主數據庫服務器的用戶工作的,這個數據庫服務器則作為一個數據發布者工作。 在一個數據庫服務器出現故障的時候, NLB 將該服務器從群集中刪除并將連接指向其他正常的服務器。
解決方案部署中應當包括對數據庫和構成數據庫的存儲過程的備份。
類似地,如果現有的計算機出現了硬件資源的瓶頸,那么您應當為 Web 群添加后端 SQL 服務器。 在添加了更多 SQL 服務器之后,構成 MSIB 2.0 解決方案的數據庫應當在 SQL 服務器中分離開來。
MSIB 2.0 企業部署的恢復模型
下圖給出了 MSIB 2.0 企業部署中典型的單點故障,下表介紹了 MSIB 2.0 企業部署是如何從單點故障中恢復過來的。 為了避免發生這些單點故障,建議您在投入實際運行之前在您的 MSIB 2.0 企業部署中采用本文前面介紹的高可用性技術。
注: 在下表中,所謂的可接受時限是指小于默認 ASP 超時時間的一個期間,在理想情況下為 15 秒鐘或更少。 為了進行本文所述的測試,所有的故障切換時間都由 MSIB 項目組進行了記錄。
單點故障 | 故障類型 | 檢定/描述 |
1(前端應用程序/Web 服務器) | 套接字 | 由 NLB 將 Web 服務器從群集中刪除,終用戶不會感覺到出現了錯誤或者數據丟失。 |
網絡 | 由 NLB 將 Web 服務器從群集中刪除,終用戶不會感覺到出現了錯誤或者數據丟失。 | |
2(前端搜索服務器) | 套接字 | 由 NLB 將 搜索服務器從群集中刪除,終用戶不會感覺到出現了錯誤或者數據丟失。 |
網絡 |
由 NLB 搜索服務器從群集中刪除,終用戶不會感覺到出現了錯誤或者數據丟失。 | |
3 和 4(防火墻之間的連接) | 套接字 | 在可接受時限之內平穩過渡到備份防火墻。 |
網絡 |
在可接受時限之內平穩過渡到備份防火墻。 |
|
5和6(域控制器之間的連接) | 套接字 | 在可接受時限之內平穩過渡到備份的域控制器。 |
網絡 | 在可接受時限之內平穩過渡到備份的域控制器。 | |
7 和 8(前端 Web 和搜索服務器上的硬盤) | 磁盤 | NLB 將故障服務器從群集中刪除掉。 |
9 和 10 (Web 或搜索服務器失效) |
服務器 | NLB 將故障服務器從群集中刪除掉。 |
11(第二防火墻層上的硬盤) | 磁盤 | 由防火墻正確地將載荷傳遞到故障切換服務器上,不會給客戶端帶來數據損失或超時。 |
12(防火墻失效) | 服務器 |
由防火墻正確地將載荷傳遞到故障切換服務器上,不會給客戶端帶來數據損失或超時。 |
13(防火墻和數據庫群集之間的連接) | 套接字 | 為了測試這個連接,建議您對使用未經高速緩存的數據庫請求的 Web 頁面進行測試,以確保不會發生終用戶可見的錯誤。 |
網絡 | 為了測試這個連接,建議您對使用未經高速緩存的數據庫請求的 Web 頁面進行測試,以確保不會發生終用戶可見的錯誤。 | |
14和15 (到域控制器的連接) |
套接字 | 在可接受時限之內平穩過渡到備份的域控制器。 |
網絡 | 在可接受時限之內平穩過渡到備份的域控制器。 | |
16(Business Desk 計算機和 SQL Cluster 之間的連接) | 網絡 |
為了測試這一連接,建議您在幾種不同模塊中對幾種 Business Desk 功能進行測試,以確保不會發生任何錯誤,以至令系統處于一種部分失效的狀態。 |
17( MSCS 數據庫故障切換: 交易、內容、管理、運動) | 服務器 | 一個服務器錯誤會引起包括應用數據庫在內的 MSCS 故障切換。 為了核實這種錯誤狀態,建議您對使用未經高速緩存的數據庫請求的 Web 頁面執行 GET 操作,以確保不會發生終用戶可見的錯誤。 系統會在被動節點變成活動節點之后重試請求,由 Web 頁面返回成功的請求。 |
18(SQL 群集上的硬盤故障:目錄、搜索、用戶) | 磁盤 | 一個系統磁盤錯誤會引起包括應用數據庫在內的 MSCS 故障切換。 為了檢驗這種錯誤狀態,建議您對使用未經高速緩存的數據庫請求的 Web 頁面執行 GET 操作,以確保不會發生終用戶可見的錯誤。 系統會在被動節點變成活動節點之后重試請求,由 Web 頁面返回成功的請求。 |
19(域控制器故障) | 服務器 |
|
20(域控制器磁盤失效) | 磁盤 |
|