近年來,5G+、大數(shù)據(jù)、物聯(lián)網(wǎng)等技術的發(fā)展顯著加快,基于數(shù)據(jù)和算力的AI產品在很多領域都有成功應用,帶動了云計算數(shù)據(jù)中心行業(yè)的總體發(fā)展,特別是近期ChatGPT產品發(fā)布帶來的大模型訓練浪潮,讓數(shù)據(jù)中心服務器從計算加存儲的通用服務器時代進入了追求極致算力的AI服務器時代,加速了數(shù)據(jù)中心供配電技術變革。當前,數(shù)據(jù)中心領域對GPU高算力服務器的需求逐年遞增,但匹配AI智能算力服務器的數(shù)據(jù)中心供配電系統(tǒng)的設計難度大、要求高,相關人員必須遵循行業(yè)規(guī)范,并根據(jù)AI算力的特點來優(yōu)化設計,保障數(shù)據(jù)中心供配電系統(tǒng)的性能及功能。
世界進入了AI時代,為滿足各行各業(yè)的實際需求,互聯(lián)網(wǎng)公司數(shù)據(jù)中心向云計算、高算力方向的發(fā)展成為必然趨勢。云計算數(shù)據(jù)中心可整合計算、網(wǎng)絡等資源,提供優(yōu)質化、精準化服務,以創(chuàng)造更大的價值[1]。同時數(shù)據(jù)中心的AI算力大小決定了其大數(shù)據(jù)分析和大模型訓練的能力,成為當前重要的數(shù)據(jù)中心性能指標,數(shù)據(jù)中心供配電系統(tǒng)的建設需匹配變化趨勢。不同于傳統(tǒng)的供配電系統(tǒng),服務于AI算力的云計算數(shù)據(jù)中心供配電系統(tǒng)需融合多種軟硬件技術,并兼具智能化、一體化、模塊化特點,能進行實時監(jiān)測、智能故障分析,并依據(jù)算力服務器的特點優(yōu)化供配電方式,滿足AI算力基礎設施高效、經濟、智能化需求。
在通用大模型浪潮的推動下,為了滿足生成式AI不斷增長的需求,以大功率GPU芯片為主的AI算力服務器在新數(shù)據(jù)中心建設規(guī)劃中將占據(jù)重要份額。相比普通服務器采用GPU芯片的AI服務器對于數(shù)據(jù)中心供電架構方面有著不同要求。
2.1.1 電力需求:AI服務器通常具有更高的功耗需求,因為它們需要更多的計算資源來處理復雜的AI任務,AI服務器的功率從750W、1500W、4500W、8000W等不同檔次逐步向高端集中,因此,AI服務器需要更強大的電力供應來滿足其高功耗需求。
2.1.2 電力密度:由于AI服務器的功耗較高,其電力密度(即每個機柜或機架的功率密度)通常比普通服務器更高。這意味著在設計數(shù)據(jù)中心供電架構時,需要考慮如何提供足夠的電力密度,以滿足AI服務器的需求。單個機柜的功率將從目前主流的8~10kW提升到24~70kW,同時這意味著數(shù)據(jù)中心的電力需求和散熱需求將大幅增加,給數(shù)據(jù)中心的設計、建設和運維帶來更大挑戰(zhàn)。
2.1.3 散熱和冷卻:由于AI服務器的功耗較高,它們產生的熱量也更多,越來越接近風冷散熱的極限,這需要采用更強大的散熱冷卻系統(tǒng),比如采用液冷或風液混合的散熱方案;同時由于散熱功率提升導致單個機柜的冷卻設備、通風設備的占地面積增加,意味著更高的散熱冷卻系統(tǒng)成本;另一方面,單個機柜的功率增加使得熱保護關機時間減少,基本上沒有機會做保護的動作,這就要求在服務器制冷側要做連續(xù)制冷。
2.1.4 線路容量:由于AI服務器的功耗較高,它們需要更多的電力供應。因此,在數(shù)據(jù)中心供電架構中,需要確保電力線路具有足夠的容量。
2.2.1 高性能:AI數(shù)據(jù)中心的計算資源、網(wǎng)絡資源、基礎設施資源具有較高的信息處理與吞吐能力,網(wǎng)絡應充分滿足數(shù)據(jù)交換與傳輸速度,不用存在阻塞,具備對突發(fā)流量、突發(fā)計算量的承受能力。供配電系統(tǒng)的建設必須遵循為高性能業(yè)務服務的原則。并兼顧技術經濟性。
2.2.2 擴展性:AI數(shù)據(jù)中心應具有良好的靈活性與可擴展性,能夠根據(jù)今后的業(yè)務不斷深入發(fā)展的需求,擴大設備容量與提高用戶數(shù)量與質量的功能。在供配電系統(tǒng)設計時充分考慮后期的擴容,以及功率彈性。
2.2.3 適應性:供配電系統(tǒng)應能滿足標準要求,同時確保各子系統(tǒng)具有良好的電磁兼容性和電氣故障隔離功能,當某一點故障時快速實現(xiàn)故障隔離,不影響其他設備連續(xù)供電。
2.2.4 可用性:供配電各系統(tǒng)的設計應滿足標準要求,工作安全可靠。并在關鍵部件設計硬件冗余、備份等可靠性技術上采用相關軟件技術提供較強的管理機制,控制方法,實現(xiàn)故障監(jiān)控以及安全授權的措施,提高數(shù)據(jù)中心可用性。
2.2.5 穩(wěn)定性:供配電設計應在成熟且廣泛應用的基礎上追求系統(tǒng)的先進性,做到方案和產品的最優(yōu)結合,同時考慮系統(tǒng)運行的穩(wěn)定。
2.2.6 可維護性:對供配電系統(tǒng)采用模塊化設計,產品的冗余設計作為重點需求指標。對硬件、軟件供應商的實施和售后服務能力進行詳細的要求,并準備對應預案。
2.2.7 經濟性:以較高的性價比規(guī)劃、設計和建設數(shù)據(jù)中心供配電系統(tǒng),達到投入產出比最大值,確保數(shù)據(jù)中心安全運營的基礎上合理降低Capex和Opex。
2.2.8 節(jié)能與環(huán)保:供配電規(guī)劃和設計要采用高效的供配電技術,實現(xiàn)充分的節(jié)能與環(huán)保要求,實現(xiàn)綠色數(shù)據(jù)中心。
AI智能算力數(shù)據(jù)中心建設要求應滿足GB50174 - 2017《數(shù)據(jù)中心設計規(guī)范》在附錄“電氣”中規(guī)定:A級數(shù)據(jù)中心應滿足容錯要求,可采用2N系統(tǒng),也可采用其他避免單點故障的系統(tǒng)配置。A級數(shù)據(jù)中心供配電系統(tǒng)主要有3種架構:2N、DR、RR[2]。
3.1.1 2N供配電系統(tǒng)。由兩個供配電單元組成,每個單元均能滿足全部負載的用電需要,兩個單元同時工作,互為備用。正常運行時,每個單元向負載提供50%的電能,當一個單元故障停止運行時,另一個單元向負載提供100%的電能。這種多電源系統(tǒng)冗余的供電方式,克服單電源系統(tǒng)存在的單點故障瓶頸,增加了供電系統(tǒng)可靠性。但是由于設備配置多、成本高,通常情況下效率比N+X系統(tǒng)低。
3.1.2 DR供配電系統(tǒng)。DR是Distribution Redundancy的簡稱,意思是分布冗余。由N(N ≥ 3)個配置相同的供配電單元組成,N個單元同時工作。將負載均分為N組,每個供配電單元為本組負載和相鄰負載供電,形成“手拉手”供電方式。N=3的DR系統(tǒng)正常運行情況下,每個供配電單元的負荷率為66 %。當一個供配電系統(tǒng)發(fā)生故障,其對應負載由相鄰供配電單元繼續(xù)供電。
3.1.3 RR供配電系統(tǒng)。RR是Reserve Redundancy的簡稱,意思是后備冗余。由多個供配電單元組成,其中一個單元作為其他運行單元的備用。當一個運行單元發(fā)生故障,通過電源切換裝置,備用單元繼續(xù)為負載供電。
3.2.1 可用度對比。采用電氣分析軟件ETAP對2N、DR、RR 3種架構的可用度進行分析。
從可用度數(shù)值來看,2N、DR、RR 3種架構的可用性大致相同,2N系統(tǒng)可用性最高。
表1 三種架構可用度對比表
3.2.2 成本對比。建設成本、運行成本(電費)對比分析如下表所示(假設2N系統(tǒng)為A)。
表2 三種架構成本對比表
建設成本2N系統(tǒng)最高,DR系統(tǒng)比2N系統(tǒng)低9 %,RR系統(tǒng)比2N系統(tǒng)低15 %;運行成本RR系統(tǒng)最高,DR系統(tǒng)最低。
3.2.3 系統(tǒng)架構、物理隔離、運維難度對比。
表3 三種架構復雜性、隔離、運維難度對比表
2N系統(tǒng)架構簡單明了,容易實現(xiàn)物理隔離,日常運行維護難度最低;RR系統(tǒng)架構最復雜,日常運行維護難度很高,設備切換需要依靠自動控制系統(tǒng)完成,手動控制難度很大,需要很強大的運行維護團隊進行運維保障,對運維專業(yè)度要求很高,優(yōu)點是成本低[3-4]。
綜上所述,高算力數(shù)據(jù)中心供配電架構按照當前主流的2N架構設計往DR方案演進2+1方案,后續(xù)持續(xù)演進到3+1是可行的,如進一步加強運維保障團隊則可在確保供電可靠性的基礎上進一步優(yōu)化成本。
目前服務器的分布式供電方案基本采用標準通用冗余電源(Common Redundant Power Supplies,CRPS)電源,通用服務器通常采用2個(1+1)12V輸出CRPS的方案,GPU服務器可采用6個(3+3或者4+2)54V輸出 CRPS(給GPU供電),再加2個(1+1)12V輸出CRPS的方案(給主板供電)。
服務器集中式供電方案通常采用計算機電源(Power Supply Unit,PSU)設置,采用10+2或者11+1的冗余設計,額定功率可以達30~33kW,單個PSU功率為3kW;具備集中式電源管理功能,可以兼容19”和21”服務器布置,預留接口兼容冷板液冷服務器。PSU兼容交直流輸入(AC 220V、DC 240V),內建ATS功能,可以預設兩路輸入的工作狀態(tài)控制兩路輸入的轉換。監(jiān)控單元具備實時數(shù)據(jù)匯報、PSU狀態(tài)監(jiān)視和工作狀態(tài)控制、在線升級等功能[5]。
4.3.1 供電效率:目前的CRPS方案的理論效率最高值為94%。在GPU應用場景下,PSU供電鏈路采用集中供電效率為95.5%,相比CRPS方案可提升1.5%。
4.3.2 電源總容量:CRPS采用2N的冗余,集中供電采用N+X的冗余??傠娫慈萘恳詥喂?0kW布置為例,CPRS方案需要配置60kW的電源;集中電源按常見布置為N+2的冗余,總電源容量為36kW,即采用集中供電,電源總需求容量降低40%左右。
4.3.3 成本:目前的集中電源產業(yè)鏈不成熟,供應量低,效率與鈦金電源相同;產業(yè)鏈成熟后,按照物料成本至少可以做到現(xiàn)在的85%,降本空間較大。
綜上所述,集中式供電方案電源效率更高,對電源總容量要求更低,后續(xù)的成本優(yōu)化空間也較大,在AI算力的GPU服務器供電上有較高的應用價值。
AI智能算力云計算數(shù)據(jù)中心的設計難度較大,雖行業(yè)內陸續(xù)出臺了相應的參考標準,也開展了一些技術探索,但在具體的設計過程中相關人員需從AI高算力的特點著手,優(yōu)化設計理念,提升數(shù)據(jù)中心供配電系統(tǒng)的適配度、可靠性和單位算力的降本能力。
來源:網(wǎng)絡 版權歸原作者
請?zhí)顚懩恼鎸嵤謾C號碼,我們將盡快回復您