九九精品综合人人爽人妻,日本最新不卡免费一区二区,最新日本免费一区二区三区不卡在线,日韩视频无码中字免费观

關于我們 | English | 網站地圖

杜坤:Al對數據中心的影響

2024-09-19 14:05:30 中國能源網

華為數字能源中國區產品總監 杜坤:AI的業務模式是變化的,與傳統數據中心的建設不一樣,單機柜功率密度提升,服務器在時刻變化,半年以后可能摩爾定律會極其迅速地帶來一個產品的迭代和更多的變化。

我們如何在這種變化的環境下去適配,或者響應業務快速建設的特征,來靈活應對一個多元算力。未來數據中心的建設一定包含AI、包含通算、包含存儲一系列綜合業務的集合。產品的模塊化從供電設施到智能設施基礎的模塊化的搭建,一個最小的單元化積木式的快速響應是必需的。基于現在制冷形式的不確定,我們可能要在機房空間內實現液冷和風冷兼容的設計。對于我們來說,在沒有決定服務器具體用哪種模式,業務承載以什么形式去做的時候,我們可能會用一定空間上的犧牲,來滿足方案的靈活性。

如果按照端到端的概念去做一個數據中心基礎設施的建設,我們從最開始資源的獲取,現在AI對電力的消耗可能是通算消耗的5~10倍甚至更多,我們如何去拿到更多快速的能評、更多的土地和更多其他的資源,這部分是我們在前置規劃建設時就需要考慮的問題。

在我們拿到相關設備的基礎條件以及整體項目的報批報建完成之后,如何快速協同去做交付?全部完成只是做到了能源的底層,到第三層我們才會做到機柜交付和業務部署的上線。目前從整體策略來看我們還是建議在業務部署前期應該有一個清晰的規劃,有彈性的方案架構的匹配,以及在業務部署的中后期,我們能夠實現業務整柜的快速交付以及業務的快速調試和上線,這部分都需要根據現有的經驗做合理的預估,控制相關的投資風險。因為AI現在投資的風險相對通算來說會更加龐大。

應對快速建設,我們通過標準化的架構,模塊化的設備,基線化的協同,這是我們目前交付的為數不多的幾十個項目中積累的一些經驗。比如最開始我們要做到業主側的聯合規劃設計落地,并且在后期基于L1和L2層相關的協同的交付實施,作出明確的方案。基于后期的運維,我們要綜合評估包括業主的能力以及相關運營公司的能力,最終在運營上做一定的協同優化,這是我們四大階段要做的事情,具體細化上還有更多方式去解決。

對于我們來說,設備安裝層面也是基于這四大設施情況下做一個全流程的協同,能做到高質量完全的交付。在我們的TTM(即時通訊軟件)上,通過有效的工具,我們能夠節省30%以上的上線時間,以解決現有業務爆發和相關業務快速部署的要求。

目前AI的電力消耗是巨大的,所以對我們來說,有可能出現一個問題,原來輔助的配電用房的占地面積只有10%~15%,但是隨著單機柜功率密度顯著提高甚至部分液冷設備上線,輔助空間設施將極致壓縮。這時集成化、高密化的方案也逐步成為主流。在主業務還沒有明確之前,相對穩定的市電申請下來之后就開始提前部署,甚至提前做電力模塊交付的相關產品的采購和整個設備的部署。這樣有兩大好處,第一個是通過智能化的管理,能夠對供配電的可靠性做到極大提升。第二個是由于高密化部署的產品特點,能夠讓可部署機柜的出柜率得到顯著提升。

供電架構的基礎設施,也是業界很多先行者會考慮的事情。既然AI這么耗電,我為什么還要做2N的架構(一種數據中心供配電系統架構),能不能做兩路市電,來避免甚至減緩這個特征帶來的影響。這里就有一個很明確的觀點,第一,我們要考慮基于現在最新的AI服務器的定價,如果按照訓練服務器定價,8點節2.5P的算力服務器采購金額在150萬甚至250萬之間,相對于通算服務器,這是一個非常大的投資。L1這部分的占比,相對于總投資來說有一個下降。第二個要素,對服務器來說,所有的設備我們如何去影響它的可靠性,由于高溫,由于供電不穩定,由于一系列其他的故障所帶來的問題,因為現在的服務器很貴,服務器是一個很金貴的設備,所以對于我們來說傳統的2N架構,供電質量的可靠性以及相關特性的保障也變得更加重要。

后續的供電是長時間的并行計算,出現了市電中斷的閃斷可能沒有數據丟失的風險,但是對于算力或者電力的消耗指標也是相當恐怖的,所以對于我們來說,一旦能夠有效地保證能源供應,避免因為電力的中斷帶來的服務器的并行重新計算,對我們來說在能源包括成本上的控制也是相對有效的措施。所以2N架構的UPS(不間斷電源)的供配電方案,我們后續依然認為是AI供配電主流的配置。

負載的突增突減,基于算力的業務來說無法避免,而且負載的長期大算力不并行計算也是特點,架構上我們必須要關注一點,就是高壓直流也好,UPS也好,具備短時間的過載特性,以滿足現有的業務特征。現在有一個行之有效的辦法,比如在市電容量一定的情況,作為數據中心,有一部分儲能設備會用來作為數據中心能源供給的后備,在市電容量已經滿負荷的情況下,可以通過儲能聯合供電來解決一部分負載突增突減的問題。如果采用常規的鉛酸電池,由于它的放電次數和放電倍率的問題,無法做到有效的、長期的能源突增突減后備軍的力量,所以鋰電后續的常規化應用,后期是動力電池甚至中壓側儲能電池的應用,也將逐步成為數據中心更換的主流,以解決我們提到的負載突增突減變化的特點。

冷卻。AI最大的特點就是在冷卻部分到底是風冷還是液冷。到目前為止,風冷的服務器依然是業界發貨的主流,液冷服務器有各種各樣的模式。所有服務器的廠商現在基于AI的場景都在不停地推出風冷和液冷兼具的服務器的解決方案,我們目前明確在單機柜40千瓦左右,40千瓦以上我們推薦用液冷或者風液融合的方案,40千瓦以下傳統的風冷場景依然還是能夠解決現在建設的訴求。

液冷和風冷這兩個方案,未來誰都不會有絕對化的優勢做完全的取代。風冷相對PUE(電源使用效率)或者整體的占地面積會有一定的提升,液冷的PUE會比風冷至少高0.1甚至0.15以上,相應的出柜率及其功率密度能夠得到有效的提升,但從整體成本以及后期維護的簡易度來看,它有一定的劣勢。未來隨著液冷服務器批量開放使用,以及由于發貨量帶來的成本下降,液冷后續將逐步在整體的服務器占比中有一定量的提升,后續有可能做到1:1甚至更高的比例。

有一點必須要明確,未來液冷將占一定的比例,但目前我們做整個數據中心的部署,對我們的要求就是要做到可以風也可以液,風液可調,風液融合,以適配更多的場景。

冷卻問題,在我們的訓練模型做了一定沉淀之后,模型最終的可用性、成熟度達到上線,大家會聚焦到推理模式,冷電融合以及連續制冷的需求是未來的剛需。按照我們自己的測試來看,一個3千瓦的機柜如果出現溫度到40度的情況下只需要8分鐘,后續20千瓦到40千瓦非連續制冷模式,可能1分鐘之內機柜就會因為過熱帶來業務宕機。無論是以后AI層面的大中型數據中心還是中小型數據中心,連續制冷都是未來的剛需。目前來看在通算這個領域,單機柜功率密度沒有提升,客戶訴求和痛點并不明顯。華為公司在相應的架構上也做了一定的優化,以保證這個功能的提升。

基于我們目前AI的模式,在訓練模式、百柜千柜的大型IDC(互聯網數據中心)的情況下,我們有融合化的解決方案,有電力模塊,有間接蒸發冷卻系統,大型設備還是以部件為主,在中小型的模型場景,有預制模塊化和微模塊的解決方案,以適配業務的快速部署和快速上線。未來基于AI層面相關的應用以及AI層面相關的業務,華為公司將持續關注,與我們客戶、伙伴攜手打造更多的數據中心類的AI管理,將更新的管理技術以及更好的模塊化的輔助產品提供給客戶,創造更多的價值,滿足客戶的需求。




責任編輯: 張磊