
容錯科技雙機方案 win2003
隨著計算機技術的發展,信息已成為系統日?;顒又惺种匾囊粋€組成部分,同時,由于系統的復雜性和開放性以及應用環境的多樣化,也給應用系統的運行帶來了許多不確定因素。這些因素也導致對服務器的安全性也提出了更高的要求,基于該平臺業務系統的安全,穩定可靠和系統的持續運行成為系統的關鍵。
在一般情況下,當系統不能正常運行時,我們需要用人工的方法進行故障的認定、分析、恢復及測試。這些都需要花費很長的時間。在這段時間內,系統必須停頓下來以等待恢復,從而給企業帶來難以估計的經濟損失。
雙機容錯是計算機應用系統穩定、可靠、有效、持續運行的重要保證。它通過系統冗余的方法解決計算機應用系統的可靠性問題,并具有安裝維護簡單、穩定可靠、監測直觀等優點。當一臺主機出現故障,該軟件可及時啟動另一臺主機接替原主機任務,保證了用戶數據的可靠性和系統的持續運行。
可以說,在目前信息系統的可用性已成為衡量其資源利用率的最重要的尺度。
為了保證系統的不間斷,建議采用容錯公司的Rongcuocluster雙機容錯軟件。該軟件技術領先,安裝管理方便,對系統資源占用極少,能確保您的高可用需求。
二.用戶需求描述
略
三.Rongcuocluster 軟硬件配置及網絡拓撲圖
硬件配置:
兩臺可為不同類型的服務器(最好為同類型) :IBM/HP/DELL
服務器上的網卡(NIC)
磁盤陣列柜:SCSI/FC
軟件配置:
操作系統:Windows2000/2003容錯系統:Rongcuocluster for win2000/2003
數據庫:Oracle、Sybase、SQL Server 等等
其它應用軟件
拓撲圖:
根據客戶實際畫
四.容錯科技簡介
RongcuoCluster集群系統的工作原理
RongcuoCluster集群系統軟件是由三部分組成,這三部分協同工作,共同完成主機系統的備援工作。
RongcuoCluster軟件在啟動時,首先讀取集群系統的配置文件,在該文件中描述集群系統中各節點的網絡信息,硬件描述以及任務的定義等參數。
集群核心程序根據集群的配置信息,進行集群系統的狀態重組。根據當前的網絡狀態和集群參數,對節點中的服務器進行調整,建立集群的初始狀態。
在節點初始狀態建立起來后,根據規則網絡管理模塊向管理模塊提交各節點的網絡狀態,管理模塊根據各節點的網絡狀態和集群中對資源的定義,對集群中的各節點進行網絡資源分配,使集群中的某個節點獲得對外提供網絡服務的資源。
同時啟動節點監控功能,對集群中的節點進行網絡狀態監控,保持網絡狀態的健康。
當集群管理模塊對網絡資源進行分配后,通過任務管理模塊對集群中的任務進行分配,根據集群網絡資源的分配情況,將與該網絡資源相依存的任務分配給已獲得對外提供網絡服務的節點。
集群任務啟動后,該模塊啟動任務監控功能,對所啟動任務的關鍵進程進行監控。保障對外提供服務的資源健康。
當以上資源建立起來后,集群系統進入正常運行狀態。
RongcuoCluster高可用集群系統,在進入正常運行狀態后,通過專用的通訊鏈路和集群中的其它節點進行通訊,傳輸各節點的狀態信息,使各節點的核心管理模塊獲得整個集群節點的實時狀態。
當系統中有節點故障時,集群管理模塊根據集群當前的狀態和該故障節點在集群中的角色做出集群系統是否重組。當該節點為生產機時,集群系統會自動將屬于該節點的資源和任務移交到下一個備用節點。保證該業務正常運行。
如果該節點為備份服務器,則需要通知整個集群對備援狀態進行調整,將該故障節點從備援設備表中刪除。使備援記錄中不再有該故障節點的記錄。直到該節點修復后重新在線,集群軟件自動進入集群中作為備援節點角色。
當集群系統正常運行后,RongcuoCluster高可用集群系統進入系統監控狀態。在監控狀態下具有網絡狀態檢測、應用程序檢測、集群軟件自身狀態檢測和存儲子系統檢測。
在該狀態中主要對以下資源進行監控:
網絡狀態監控
在集群運行中,RongcuoCluster集群軟件的網絡管理模塊對整個網絡中的網絡資源進行實時監控,獲取整個網絡的運行狀態。如果監控到集群中有節點失效時,將該節點的網絡狀態通知到RongcuoCluster的管理模塊,管理模塊根據當前的網絡狀態和該節點在整個集群中的角色(生產機或備援機),通知整個集群進行狀態重組。
如果該節點為生產機,則管理模塊通知集群中的下一個備援服務器進行任務接管。從集群中剔出該故障服務器。對整個集群重新分配規則。
如果為備援機,則管理模塊通知整個集群節點進行規則調整,將該故障節點從備援節點表中剔出,保持集群系統中節點的有效性。
應用監控
對外提供服務的應用程序一般為數據庫或中間業務系統,如果應用程序出現故障,則集群中的該節點也無法正常提供對外的服務。為提高集群的可用性,RongcuoCluster可以在集群資源中靈活定義對進程進行監控的方式。對進程名監控還是對進程個數進行監控。
當關鍵進程丟失或進程個數達不到一個固定的閥值時,集群會將資源轉移到下一個節點運行,保障應用系統的正常運行,保持整個集群的健康狀態。
集群軟件運行狀態監控
集群軟件在運行的過程中,因其它因素的影響,會造成自身的進程丟失。如果自身進程丟失,會影響到整個集群的運行狀態。 RongcuoCluster集群軟件,實現對自身進程的監控,當人為或意外操作將某個RongcuoCluster的服務進程退出運行時,RongcuoCluster會自動將該丟失的進程重新運行。保障RongcuoCluster系統的自身運行安全。
存儲子系統監控
在集群系統運行過程中,所有的數據均存放在共享的磁盤陣列子系統中,當磁盤陣列子系統因連接線或SCSI卡出現故障導致無法對主機提供服務時,RongcuoCluster高可用系統根據配置的集群資源,并確認當前的主機是工作機(生產機)時,會自動將該主機的任務移交 到備用節點,使系統可以繼續服務。同時在日志中報警,提醒用戶對該故障進行處理、維護。RongcuoCluster高可用集群軟件,通過集群節點間的心跳信號,和其它節點進行通訊,獲得其它節點的運行狀態,根據整個集群中各節點的狀態,更新本節點自身的狀態表。同時根據集群管理層的命令,調整自身節點的狀態和集群資源。
RongcuoCluster集群系統軟件通過實時對集群系統資源的監控,及時發現集群中節點的故障,及時通過備用節點代替故障節點的工作,使集群狀態處于一個完整的健康狀態。
RongcuoCluster集群系統的特性:
采用任務提交、確認機制在集群系統中,節點之間通過消息確認方式進行任務的移交。主服務器在對任務進行移交時,對任務進行關閉后,通知備份服務器進行任務接管工作。當備份服務器沒有接到確認消息時,始終處于等待狀態,直到接到確認消息。
當備份服務器在長時間沒有接到確認消息時,會通過偵測對方的任務狀態來判斷,主機的任務是否安全關閉。如任務已關閉,則通知主服務器要接管任務,并開始執行任務接管。如果任務沒有關閉,則主服務器處于僵死狀態(操作系統故障)時,對該任務進行強制接管。并通知集群系統該主機不可用。
RongcuoCluster高可用集群軟件,對集群節點中的關鍵操作均采用確認方式,確保任務安全移交,杜絕雙主機、多主機狀態和雙任務狀態。
圖形化的配置管理界面,對集群文件系統配置、網絡配置以及任務的配置方式均通過選擇方式進行,操作簡單易用。
RongcuoCluster高可用集群軟件采用簡潔的菜單選擇方式,對集群中的資源進行配置,不采用編寫腳本的方式進行配置,而是在每項菜單中對集群的資源配置以表格的方式進行填寫。使軟件具有很好的可用性。
同時通過菜單和表單方式進行組合,使管理員對集群的配置維護都具有很高的直觀性。使軟件便于設置和維護。
對于一個集群來講,該集群的資源配置參數最為重要,任意修改該資源配置參數,則會導致整個集群的運行。
RongcuoCluster高可用集群軟件為保護集群配置的安全,在對集群資源配置時,增加了用戶口令驗證,只有持有該口令的管理人員才能對集群的資源進行修改、配置。
通過口令驗證方式,對集群的配置安全做進一步的保護。
集群的安全的另外一個重要的因素是自身的安全,當程序因意外故障導致集群服務主程序退出時,需要能夠對退出的運行程序進行處理。
RongcuoCluster高可用集群系統采用自身監控的功能,當某個程序退出運行時,集群自身能夠對該退出的程序進行重新啟動,保護集群軟件健康運行。
RongcuoCluster高可用集群軟件在對應用程序監控時,采取非常靈活的方式??梢詫﹃P鍵進程進行監控,也可以對進程的個數進行監控。當定義對進程個數進行監控時,只需要對監控的進程個數設置一個閥值,當進程個數低于該閥值時,系統會自動發送通知到管理核心模塊,對該任務進行任務移交。
RongcuoCluster支持從兩個節點的簡單集群系統,平滑過渡到以后的多節點集群系統,對業務系統整合以及優化業務系統有很大的優勢。
RongcuoCluster采用流行的C/S方式對集群進行管理、維護及其監控等操作,均可以通過客戶端方式進行操作,不需要在服務器上進行操作??蛻舳送ㄟ^直觀的圖形方式對集群的整個狀態進行實時監控。當集群有故障時,客戶端通過聲音、郵件方式進行報警處理。并在集群的監控窗口顯示故障點的位置。
集群軟件采用系統級的硬件處理,與硬件無關性,只要操作系統支持的硬件、RongcuoCluster集群軟件均可以支持,
支持流行的SAN架構的光纖磁盤陣列子系統、SCSI結構的磁盤陣列子系統、以及ISCSI存儲環境。
支持目前流行的數據庫系統,如Oracle、Sybase、MS SQL Server、DB2等
支持應用系統:Microsoft IIS等應用系統。
支持群件系統:IBM Notes等。
中英文管理界面,可以根據需要選擇
功能特性 | RongcuoCluster-DN | RongcuoCluster-MN |
支持節點數 | 2 | 2-8(最大無限制) |
任務數 | 1-2 | 1-8(最大無限制) |
通信鏈路 | 1-2 | 1-4 |
協議 | Socket | MLDC |
存儲控制 | 支持SCSI/SAN | SCSI/ISCSI/SAN/NAS |
雙柜環境 | 支持 | 支持 |
遠程監控 | 支持 | 支持 |
統一平臺管理 | 不支持 | 支持 |
中文語言包 | 支持 | 支持 |
專業應用保護模塊 | 不支持 | 可選 |
集群自監控 | 支持 | 支持 |
備援方式 | 2種 | 多種 |
負載均衡 | 不支持 | 支持(可設置) |
集群回切機制 | 不支持 | 支持(可設置) |
安全認證 | 高 | 極高(ESA128位加密) |
自動報警 | 有(聲音/郵件) | 有(聲音、郵件) |
事件日志 | 有 | 詳細(支持調試模式) |
資源偵測 | 可靠 | 智能化 |
RongcuoCluster規劃技術要點
配置高可用系統的目的是保證系統可以不間斷的提供服務,因此硬件配置的一個關鍵是盡可能的減少單點故障,而手段主要有兩種:使用容錯服務器和配置集群環境。我們這里僅討論通過RongcuoCluster實現的集群高可用環境,因為容錯機的普遍使用還不現實,價格昂貴加上維護困難。目前國內外用戶普遍采用的是集群環境,占大多數的是雙機集群,國內通常稱為雙機容錯。
雙機容錯從高端的HP-UX上的McService Guard、IBM AIX上的HACMP等,到Intel 構架服務器環境下的NT/2000、SCO Open Unix/OpenServer/UnixWare、Linux等的雙機容錯解決方案。
高可用集群環境下的雙機或多節點高可用并非完全沒有單點故障,就像前面介紹的,完全沒有單點故障的環境是沒有的。在我們的RongcuoCluster集群環境下,通過合理配置硬件設備,可以盡量減少單點故障點。下面我們討論幾種建議的配置環境和設備選型的原則。
為提供高級別的可用性,典型群集軟件使用冗余系統組件,如采用兩個獨立的磁盤等方式提高系統的可用性。這種必要的硬件冗余結構主要是消除整個系統的單點故障。
一般來講,冗余程度越大,出現故障時訪問應用程序、數據和支持性服務的可靠性就越大。除硬件冗余外,系統還必須具有軟件支持,因為軟件支持在出現故障后啟動和控制應用程序向另外一個網絡或節點進行轉移。RongcuoCluster就是基于這樣的需求由容錯科技自主研發的集群軟件包,可以提供以下支持:
A 在網絡出現故障的情況下,RongcuoCluster自動將受到影響的任務轉移到備用節點。
B 在其它受集群系統管理的資源出現故障的情況下,RongcuoCluster自動將程序轉移到備用節點上。
C 在軟件出現故障的情況下,應用程序可以在另外一個節點上重新啟動,針對整個系統來講,同時中斷的時間很短。
通過rongcuoCluster構造的高可用系統,使您具有對硬件系統進行在線升級的功能,通過RongcuoCluster可以輕松的將系統轉移到另外一個節點上,以便對當前的系統進行維護和升級等操作,當系統升級結束后,再將任務移交至本機,再對另外一個節點進行維護和升級。
集群設備選型的要點
我們前面有很多關于單點故障的描述,那么在配置集群環境中我們如何選擇自己的硬件環境呢?
在具體表述之前,我們先回顧一下一個高可用集群系統的可用性是如何得到的。一個雙機環境通常由兩臺服務器和一個磁盤陣列,通過一個SCSI/FC鏈路串接在一個‘總線’上,那么其整體的可用性等于 :服務器1的可用性X服務器2的可用性X磁盤陣列的可用性
也就是說如果服務器1是99.99,服務器2是99.999,磁盤陣列是99.99,則雙機(對等工作方式:Active/Active)環境下的整體可用性是:
0.9999X0.99999X0.9999=0.99
而對于一個磁盤陣列子系統來分析其可用性,則是由組成陣列的各部件的可用性相乘得到。磁盤陣列系統由電源、背板、控制器、多個硬盤組成,那么磁盤陣列整體的可用性通常達到五個九(99.999)已經很難了,因為很多磁盤陣列都是盤和柜單配的,而市場上的硬盤 通??煽啃圆皇呛芨叩?。導致整個磁盤陣列可靠性不高,從而最終導致整個高可用環境的可靠性低。
因此我們得到的結論是高可用環境下的硬件設備選擇是系統的可用性的基石,而一個好的高可用軟件使集群成為現實。
選擇硬件的原則可以歸納為:
A 性價比是選型的要點;
B 磁盤陣列是集群系統的核心,它的可靠性是關鍵,性能次之;
磁盤陣列有可能是單點故障點,它必須在環境中具有最高的可用性和可靠性;
C 集群中的服務器可以選擇不同配置,但盡量相同品牌;
D 盡可能少的留有單點故障點;
E 選擇開放性好的服務器,可靠性盡量的高;
F 盡量采用設備獨立的存儲子系統,既盡量采用帶有獨立RAID控制器的存儲設備;
G 選擇磁盤陣列盡量考慮其硬盤的可靠性,盡量和陣列柜統一考慮;
H 磁盤陣列一定要求雙路電源、散熱性、抗震性、抗干擾能力等都是很重要的;
I 正確認識磁盤陣列控制器的有關參數:CPU、Cache、通道等,這些數值不能代表磁盤陣列的可靠性和性能的高低。
分析:
單獨就雙機環境下的集群來分析,設置兩臺服務器的目的是使系統處理單元(SPU)達到冗余,而共享存儲冗余的代價太大,一般選配一個單柜來實現,而RongcuoCluster軟件包負責監控系統,并在系統故障時報警并做出相應的切換操作,保證服務不丟失。但服務不丟失的前提是磁盤陣列部分不出故障,一旦磁盤陣列的控制器故障導致設備無法訪問,則無論服務器主機有多好的性能和可靠性,都無法阻止系統停止服務。選擇可靠的磁盤陣列是關鍵。
如果真的要做到沒有單點故障,則可以配置雙控制器的磁盤陣列來避免控制器損壞導致的宕機,也可以配置雙柜來達到磁盤陣列的冗余。兩種方式各有利弊,雙控并非完全避免單點故障,它涉及到控制器熱切換,而且兩個控制器同時在線,同時損耗,也無法避免由于硬盤損壞導致的停機;雙柜方式通常需要特定軟件的支持,保證磁盤柜之間數據的同步,同時代價很大,這兩種情況要根據實際需求來定義。
服務器是服務提供的運行部分,它應該有很高的可靠性和開放性,便于維持整個系統的擴展性和開放性。集群環境中的服務器可以配置不一樣,可以節省投資,因為RongcuoCluster雙機用戶中,通常采用的都是主從(Active/Standby)工作方式,備份服務器絕大部分時間是等待狀態,可以配置的比主服務器低。
集群環境中的應用數據,要求存放在共享磁盤陣列中,本地硬盤通常安裝操作系統、應用軟件及RongcuoCluster軟件包,為保證主機系統安全性,建議系統盤通過RAID1實現鏡像,保證一塊系統盤的損壞不會導致系統服務切換或終止。
RongcuoCluster簡單雙機集群環境
簡單雙機集群是目前大多用戶采用的高可用環境,簡單的說就是兩臺服務器加一臺磁盤陣列,通過RongcuoCluster軟件實現主從工作方式的雙機環境。這樣的環境不一定是十分嚴格的集群,因為按照前面描述的有關內容,需要考慮的問題太多,包括硬件配置、單點故障等。
主從就是熱備工作方式,容錯軟件作為不可缺少部分起到監控系統狀態并在系統故障時,自動做出相應的反應,保證整個系統提供服務的不間斷。對于這樣的環境這里不進行過多的描述,理解下面的示意圖就可以了。關鍵應用ERP的數據庫
關鍵應用ERP的數據庫
RongcuoCluster復雜雙機集群環境
復雜雙機集群環境通常指針對特殊用戶需求而實現的較簡單雙機復雜得多的雙機應用環境。這樣的環境包括對等雙機、雙機雙柜方案、異地雙機(帶容災功能)等,這些環境的實現有時是有一定技術難度的。
下面我們分別討論幾種復雜雙機的定義。
對等雙機(Active/Active)
對等雙機就是我們通常說的雙主機工作方式,這個環境下,有兩套不同的應用運行在集群環境中,每臺服務器運行各自的應用,在其中一臺出現故障時,另外服務器將接管其服務。這種配置可以大大提高設備的利用率,缺點是增加了系統的復雜度,而且對于某些特殊應用環境可能無法實施。
對等雙機是真正的雙機互備,要求服務器具有較強的處理能力,來滿足兩個應用的需求。在配置對等雙機時,硬件的配置與主從雙機略有不同,主要在網卡上。對等需要至少兩片網卡,每個網卡對應一個應用,可以是相同或不同網段的網絡地址。
對等雙機通常要求兩個應用的共享存儲部分完全獨立,它不同于通常的并行服務器,也不具有負載均衡功能。并行服務器典型的是ORACLE 的OPS(Oracle Parallel Server),它是多臺服務器運行一個ORACLE數據庫,通常需要特殊的底層軟件包來支持,因為并行服務的關鍵是硬盤訪問的一致性控制,ORACLE上稱之為DML(分布鎖管理),來控制數據的訪問。目前,這樣的環境只能在某些特殊的高端環境下運行。RongcuoCluster還做不到并行服務器的控制功能。
而負載均衡的概念是對訪問或處理的動態資源分配,保證更大限度的使用硬件資源。也有這樣的原因使用負載均衡:訪問或處理集中在一個數據資源上,而運行該數據資源的服務器根本無法滿足訪問的需求,這時需要多個服務器來接受訪問,那么動態的將訪問需求分配到不同的服務器上,來滿足需求。
總之,RongcuoCluster在對等方式下,滿足的是對兩個獨立的應用實現高可用的需求。理論上我們可以將多個不同應用分布在兩臺服務器上,使得多個應用可以在高可用環境下運行,這樣可以達到多應用互相備援的目的。因為RongcuoCluster可以對進程監控、對進程數量監控,對RongcuoCluster來講,本身不區分進程的類型,僅僅把進程作為監控的對象而已。
下面是RongcuoCluster對等方式的圖解,請仔細理解。
1、RongcuoCluster最低系統要求
至少128M內存;
50M磁盤空間以安裝集群軟件;
至少兩塊以太網卡;
TCP/IP網絡;
至少一個Hub/Switch;
800*600分辨率256色監控器;
2、硬件支持列表
服務器 及存儲HP /IBM /DELL /NEC
聯想/方正/浪潮/華碩/HEAD/同方/寶德
其它基于Intel構架的PC服務器
存儲系統支持各種基于標準存儲協議的存儲設備
3、操作系統
Windows 2000 SP3 及以上
Windows 2003 or later
其它主流操作系統
終身免費電話支持
技術熱線:0571-82089118
購買之日起一年的免費軟件升級
用戶產品現場培訓、環境優化(限購買安裝服務用戶)
服務期內有限的現場服務
其它服務要求參考《RongcuoCluster標準服務條款》