???????????????????????????????????????
????????????????
???????????????????
????????????????
????????????????
???????????????????????????????????????????????????????????????????????????????????????????????????
??????????????????????????????????
????????????????
????????????????
???????????????????????????????????
???????????????
??????????????????????????????????????
人(ren)工智能(neng)(AI)與(yu)機器學(xue)習(ML)正引(yin)領各(ge)行(xing)業(ye)變(bian)革(ge),并(bing)應對(dui)全球(qiu)性挑戰。如今,新(xin)一代(dai)人工(gong)智能——生成式AI正嶄露(lu)頭角,它借(jie)助(zhu)深度(du)神經網(wang)絡(luo)解(jie)鎖(suo)全新功能。生成式(shi)AI正(zheng)蓄(xu)勢待發(fa),將成為數字(zi)時代的(de)催化(hua)劑,重塑(su)企業運(yun)營(ying)和社(she)會運作(zuo)的模式(shi)。
領軍(jun)企業(ye)正(zheng)積(ji)極(ji)引(yin)入(ru)生成(cheng)式AI以獲(huo)取(qu)競(jing)爭(zheng)優勢(shi),公開(kai)的模(mo)型更(geng)是激(ji)發了(le)市(shi)場需求(qiu),從而(er)引發了數(shu)據(ju)中心格(ge)局(ju)的(de)巨大(da)轉變(bian)——從(cong)超大(da)規(gui)模數(shu)據(ju)中心(xin)到企業級(ji)數據(ju)中心(xin)。面對(dui)數據中心在(zai)部署(shu)精密(mi)硬(ying)件(jian)、收集(ji)數據及訓練模型上(shang)的(de)種(zhong)種挑(tiao)戰(zhan),一個核心(xin)議題(ti)浮現(xian)出(chu)來(lai):我(wo)們該(gai)如(ru)何構(gou)建基礎設(she)施,以(yi)確保其能(neng)支撐(cheng)起(qi)生成(cheng)式(shi)AI技術復雜且繁重的(de)運(yun)算(suan)需求?
生(sheng)成(cheng)式AI的(de)崛(jue)起驅(qu)動(dong)數(shu)據中心(xin)轉(zhuan)型(xing)
生(sheng)成(cheng)式AI的(de)訓(xun)練過程極為復(fu)雜,它需(xu)要(yao)從眾多(duo)源(yuan)頭并(bing)行處理(li)龐(pang)大的(de)數據集(ji),并在(zai)同(tong)一(yi)時(shi)間(jian)內執行成千(qian)上(shang)萬次的(de)計(ji)算(suan)。傳統(tong)的(de)CPU(中央處(chu)理(li)器(qi))服務器難(nan)以勝(sheng)任(ren)這(zhe)一(yi)重(zhong)任,此(ci)時,GPU(圖形(xing)處(chu)理器)服(fu)務器(qi)或節點便成(cheng)為了關鍵(jian)。
一個(ge)龐大(da)的(de)超大規模(mo)生成式(shi)AI集群可能包含成(cheng)千上(shang)萬個(ge)互(hu)聯(lian)節(jie)點,這些(xie)節(jie)點(dian)消耗(hao)的功(gong)率(lv)可能是普(pu)通(tong)集群的十倍(bei)之(zhi)多,并通(tong)過高(gao)速(su)、低(di)延遲(chi)的(de)傳(chuan)輸(shu)手段相互連(lian)接(jie)。即(ji)便是企(qi)業級(ji)集群,也(ye)需(xu)要(yao)多個(ge)GPU持(chi)續(xu)滿(man)負(fu)荷運(yun)轉(zhuan)來(lai)訓(xun)練模型(xing)——而(er)隨著應用場景(jing)的不(bu)斷(duan)豐富和(he)效(xiao)益的日益顯(xian)現(xian),其規(gui)模(mo)還將(jiang)進(jin)一(yi)步(bu)擴大。
為確(que)保(bao)生成式(shi)AI的(de)運行,數(shu)據中心(xin)基礎(chu)設施(shi)需滿(man)足以下要(yao)求:
? 更高(gao)的帶寬(kuan)與(yu)更低的延(yan)遲 – 后(hou)端(duan)節點(dian)間(jian)需(xu)支(zhi)持(chi)100G至800G的高速數(shu)據傳輸(shu),并(bing)實現實時(shi)(小于(yu)20毫秒)的(de)東西(xi)向數(shu)據流(liu)通,同(tong)時(shi)前(qian)端(duan)交換機(ji)需(xu)達(da)到(dao)800G乃(nai)至(zhi)1.6T的(de)傳(chuan)輸速率(lv)。
? 更強(qiang)的供(gong)電(dian)與(yu)冷卻(que)效能 – 隨(sui)著機架密(mi)度攀升(sheng)至每(mei)機架(jia)30-100kW,需要(yao)采(cai)用(yong)更高效(xiao)的(de)冷卻解決方案(an)(比如(ru)液冷(leng)技(ji)術(shu))來(lai)應對更高(gao)的(de)散熱(re)挑戰(zhan)。
? 先進的通(tong)信協議 – 后(hou)端采用(yong)InfiniBand協議(yi)以支(zhi)持(chi)節點間(jian)的高(gao)帶(dai)寬、低延遲(chi)連接(jie),而前(qian)端(duan)則使用以(yi)太(tai)網協議來支(zhi)持(chi)交(jiao)換、存(cun)儲和(he)管(guan)理功能(neng)。
? 高密度、高(gao)性能布(bu)線(xian) – 確保(bao)節點間(jian)連(lian)接、存(cun)儲、管(guan)理(li)和交換(huan)的(de)高(gao)效與(yu)穩(wen)定(ding)。
生成(cheng)式(shi)AI解決方(fang)案(an)指(zhi)南(nan)
探索(suo)創新(xin)的(de)網絡基(ji)礎(chu)設施(shi)解(jie)決(jue)方案,助(zhu)您(nin)輕(qing)松設計(ji)、部署和擴展復雜(za)高性(xing)能(neng)計(ji)算(suan)AI環境的(de)后(hou)端(duan)、前(qian)端和(he)存儲(chu)網絡(luo)結構。
???????????????????????????????????????
???????????????????
????????????????
???????????????????
????????????????
????????????????
???????????????????????????????????????????????????????????????????????????????????????????????????
??????????????????????????????????
????????????????
????????????????
???????????????????????????????????
???????????????
????????????????????
??????????????????????????????????????