AI如何改(gai)變(bian)數據(ju)中(zhong)心設計
2023年(nian)至2026年(nian),全球在(zai)AI系(xi)統(tong)上的支出(chu)將(jiang)翻一(yi)番(fan),顯(xian)然(ran),數(shu)據(ju)中(zhong)心的容量(liang)將(jiang)迅速(su)增(zeng)加,以滿(man)足(zu)需(xu)求。
然(ran)而(er),令人(ren)驚(jing)訝的是(shi),在過(guo)去的(de)一(yi)年里(li),許(xu)多(duo)數據(ju)中心(xin)運(yun)營(ying)商對(dui)新項(xiang)目踩(cai)下(xia)了(le)剎車,放緩了投資(zi),倫(lun)敦的空(kong)置容量在2022-23年(nian)間下降了(le)6.3%。
這(zhe)種(zhong)違(wei)反直(zhi)覺的趨勢(shi)背后(hou)是(shi)什么(me)原因?要解釋這(zhe)一點,我們需要了解圍繞(rao)AI計(ji)算和支(zhi)持(chi)它的(de)基礎設施的一些(xie)問題。
AI如(ru)何改(gai)變數(shu)據(ju)中心(xin)基礎(chu)設施(shi)
數(shu)據(ju)中心(xin)歷(li)來是(shi)圍繞(rao)使用CPU的(de)機(ji)架(jia)構(gou)建(jian)的(de),以(yi)應(ying)對(dui)傳(chuan)統(tong)的計算(suan)工作(zuo)負(fu)載(zai),然(ran)而,AI計(ji)算(suan)轉而(er)需(xu)要使用(yong)GPU驅(qu)動機(ji)架(jia),與同等的CPU容(rong)量(liang)相(xiang)比(bi),它消耗更多(duo)的(de)電(dian)力(li),釋(shi)放更(geng)多(duo)的熱(re)量(liang),占(zhan)用更(geng)多(duo)的空(kong)間(jian)。
在(zai)實(shi)踐中(zhong),這(zhe)意味著(zhe)AI計(ji)算(suan)能力通(tong)常(chang)需要(yao)更多的電(dian)源連(lian)接或(huo)替代冷卻(que)系(xi)統(tong)。
由于這(zhe)是(shi)嵌入(ru)式(shi)基礎設(she)施(shi),它(ta)被(bei)內置(zhi)到數(shu)據中(zhong)心綜合(he)體(ti)的(de)結構中——這(zhe)使得更(geng)換(huan)它往(wang)往(wang)代(dai)價高(gao)昂,如果(guo)不是在(zai)經濟(ji)上完全不可(ke)能(neng)的(de)話。
在實踐(jian)中(zhong),運(yun)營商(shang)必須承諾(nuo)在他們的(de)新(xin)數(shu)據(ju)中(zhong)心中有(you)多(duo)少空間專門(men)用(yong)于AI和(he)傳統計(ji)算(suan)之(zhi)間(jian)的“分割(ge)”。
如果弄錯了(le)這(zhe)一(yi)點,并過(guo)度(du)承(cheng)諾AI,可(ke)能(neng)會(hui)讓(rang)數據(ju)中(zhong)心運營(ying)商背(bei)負著永(yong)久未(wei)充分(fen)利用和無利可圖的負擔。
AI市(shi)場還(hai)處(chu)于(yu)初級階(jie)段(duan),這(zhe)加(jia)劇(ju)了(le)這個(ge)問(wen)題,Gartner聲稱(cheng),它(ta)目前正處于(yu)炒(chao)作周期中夸(kua)大預(yu)期(qi)的(de)頂(ding)峰(feng)。因(yin)此,許多運(yun)營商(shang)選擇在設(she)計階(jie)段按兵不動,而不是過早承(cheng)諾在新數據中(zhong)心(xin)項目中承擔(dan)AI計算(suan)的比(bi)例(li)。
在(zai)設(she)計階(jie)段采(cai)取全面的方法(fa)
然而(er),運(yun)營(ying)商敏銳(rui)地(di)意識(shi)到,在(zai)失去(qu)市(shi)場份額和(he)競(jing)爭優勢(shi)之(zhi)前(qian),他們(men)只能冒著(zhe)推(tui)遲(chi)投資(zi)的風險(xian),但(dan)考慮(lv)到數(shu)據(ju)中心基礎(chu)設(she)施(shi)的許多(duo)基(ji)本(ben)要素正在被(bei)實時(shi)重寫,這(zhe)是(shi)一項艱(jian)巨的(de)任(ren)務(wu)。
為(wei)了滿(man)足(zu)成為(wei)先(xian)行(xing)者(zhe)的(de)需(xu)求,同(tong)時(shi)抵(di)消(xiao)風險,運營(ying)商需(xu)要將(jiang)他(ta)們(men)的(de)數(shu)據中(zhong)心設(she)計(ji)為在(zai)AI計算(suan)時代具有(you)最(zui)大(da)的(de)效率和(he)彈性,這(zhe)需要一(yi)種(zhong)全(quan)新的(de)整體(ti)設(she)計方(fang)法。
1.讓(rang)更多(duo)利益相(xiang)關者(zhe)參(can)與(yu)進來
無(wu)論操作(zuo)員(yuan)決(jue)定AI和(he)傳統計(ji)算(suan)之間(jian)的(de)確(que)切(qie)分離,具(ju)有(you)AI計算(suan)能力的數(shu)據中心站(zhan)點(dian)有(you)望(wang)比傳(chuan)統(tong)設(she)施(shi)復(fu)雜(za)得多。更復(fu)雜(za)的(de)往往(wang)意味(wei)著(zhe)更多的故障(zhang)點,特別是(shi)在(zai)AI計(ji)算(suan)比傳(chuan)統(tong)計(ji)算(suan)有(you)更多需(xu)求的情(qing)況(kuang)下(xia)。
因此,為(wei)了(le)保(bao)證(zheng)正(zheng)常(chang)運行時(shi)間(jian)并降低(di)站點(dian)生(sheng)命(ming)周期(qi)內出(chu)現代價(jia)高昂的問題(ti)的(de)風(feng)險(xian),團(tuan)隊需要在數(shu)據(ju)中(zhong)心(xin)的規劃(hua)階(jie)段更加(jia)徹底。
特別(bie)是(shi),設計(ji)階段(duan)應在(zai)項目(mu)開(kai)始時(shi)尋(xun)求(qiu)更廣(guang)泛(fan)的(de)團隊(dui)和(he)專(zhuan)業(ye)知(zhi)識(shi)的投入。除了(le)尋求(qiu)電(dian)力和(he)冷(leng)卻方面(mian)的(de)專(zhuan)業(ye)知(zhi)識外(wai),設(she)計人(ren)員還(hai)應(ying)該(gai)及(ji)早接(jie)觸(chu)運營(ying)、布線(xian)和(he)安(an)全(quan)團隊,以了解潛在的瓶頸或(huo)故障(zhang)來(lai)源(yuan)。
2.將(jiang)AI融(rong)入(ru)數據(ju)中心(xin)運(yun)營
由于(yu)運(yun)營(ying)商現在(zai)在現(xian)場進行AI計算,他(ta)們(men)應該利用(yong)自(zi)己的(de)能力來利(li)用AI來(lai)提(ti)高運(yun)營(ying)的新(xin)效率。AI在(zai)數(shu)據中(zhong)心(xin)的采用已經有(you)很長(zhang)時(shi)間了(le),這項技術能夠(gou)以(yi)極(ji)高的(de)精度和質(zhi)量(liang)承擔工(gong)作(zuo)流(liu)。例(li)如,AI可以在(zai)以(yi)下(xia)方(fang)面提供(gong)幫助(zhu):
·溫(wen)度和(he)濕度(du)監(jian)測。
·安(an)全(quan)系統運(yun)營(ying)。
·用(yong)電(dian)監控(kong)和(he)分(fen)配。
·硬(ying)件(jian)故(gu)障(zhang)檢測和預(yu)測(ce)性(xing)維(wei)護。
通過(guo)在數(shu)據中(zhong)心生命周期的(de)每(mei)個(ge)階(jie)段(duan)主動使(shi)用(yong)該技術,運營(ying)商可以(yi)顯著(zhu)提(ti)高其運營(ying)的(de)效率(lv)和(he)穩健(jian)性(xing)。AI非常(chang)適合于幫(bang)助(zhu)應對采用這些(xie)新一代數(shu)據(ju)中心(xin)新(xin)穎而復(fu)雜(za)的(de)布局時遇(yu)到(dao)的新(xin)挑戰(zhan),例如通過(guo)故(gu)障檢(jian)測(ce)和預(yu)測(ce)性維(wei)護(hu)。
3.避免虛假的(de)節(jie)約
在高峰期,例(li)如(ru)在(zai)培訓運行(xing)期間或(huo)在生產(chan)中運(yun)行(xing)企(qi)業級(ji)模(mo)型時,AI會(hui)給(gei)數據中(zhong)心帶來更(geng)大(da)的(de)負(fu)載。在(zai)這(zhe)些(xie)期間(jian),AI計(ji)算(suan)在(zai)功(gong)耗(hao)、冷卻(que)需(xu)求和數據(ju)吞(tun)吐量方(fang)面往(wang)往會大(da)大(da)超(chao)出(chu)傳(chuan)統(tong)的預(yu)期。
在最基(ji)本(ben)的層(ceng)面(mian)上(shang),這意味著(zhe)數(shu)據中(zhong)心的(de)底層材(cai)料面臨更大(da)的(de)壓力(li)。如(ru)果(guo)這些底(di)層材料(liao)或(huo)部件(jian)質量(liang)不(bu)高,這(zhe)意味著(zhe)它(ta)們更容(rong)易(yi)失(shi)敗(bai)。由(you)于(yu)AI計算意(yi)味著(zhe)一個站點(dian)的組件和(he)連(lian)接數量(liang)急劇增加(jia),這(zhe)意(yi)味著(zhe)在傳統站點(dian)中(zhong)運(yun)行(xing)良好的(de)更便宜、更(geng)低(di)質量(liang)的材料(liao)可能會(hui)使運行(xing)AI計算(suan)的數據中(zhong)心(xin)陷(xian)入(ru)停(ting)頓(dun)。
為(wei)此(ci),運(yun)營(ying)商(shang)應(ying)該避免(mian)通過購(gou)買(mai)質(zhi)量較(jiao)低的(de)材(cai)料來(lai)節(jie)省(sheng)資金(jin),比(bi)如(ru)不(bu)合(he)格(ge)的(de)電(dian)纜(lan)。這樣做可(ke)能(neng)會(hui)帶來虛假(jia)的(de)經濟風(feng)險(xian),因為(wei)這些(xie)材(cai)料更容易(yi)失效,需要更(geng)頻繁(fan)地(di)更換(huan)。但是(shi),最(zui)有(you)問題的是,不合格(ge)的(de)材(cai)料(liao)和(he)部(bu)件的(de)故(gu)障往(wang)往(wang)會(hui)導(dao)致(zhi)網(wang)站停機或停機(ji),從而(er)影響其盈(ying)利(li)能(neng)力(li)。
解(jie)決基礎設(she)施難(nan)題(ti)
盡管AI計(ji)算的基(ji)礎(chu)設(she)施要(yao)求可能(neng)是運營商拖(tuo)延投資的(de)主(zhu)要原因,但從(cong)長遠來看(kan),情況(kuang)并非如此。
隨(sui)著市場不(bu)確定性的(de)消(xiao)除(chu),公司將(jiang)在(zai)數(shu)據(ju)中心(xin)的(de)傳統(tong)計(ji)算和(he)AI計(ji)算之間的分(fen)裂問題(ti)上匯(hui)聚(ju)到(dao)他們的(de)“適(shi)中(zhong)區域”。
隨著這(zhe)種(zhong)情況的發(fa)生,公司(si)將(jiang)需(xu)要確保隨(sui)著他們的(de)學習和(he)成熟(shu),他(ta)們在(zai)網(wang)站的運營(ying)中擁有一切可(ke)能(neng)的(de)優(you)勢(shi)。
這(zhe)意味著從一(yi)開(kai)始就進(jin)行(xing)整體設計(ji),利(li)用(yong)AI本身來(lai)發現他們網站(zhan)的(de)新(xin)效率(lv),并(bing)投資(zi)于能夠(gou)滿足更(geng)大的(de)AI計(ji)算需(xu)求的(de)高(gao)質(zhi)量(liang)組(zu)件。