近兩年,人工智能大模型日益受到社會關注,AI+算力正在驅動千行百業(yè)的智能化轉型。
有一位“AI工匠”王斌,他帶領團隊駕馭大規(guī)模國產(chǎn)智算集群,訓練出了一套全系統(tǒng)自主可控的九天大模型,打造面向未來的大國重器。
中國移動研究院人工智能中心高級總監(jiān) 王斌:這是北京市最典型的一個覆蓋居民區(qū)的基站,類似的基站中國移動已經(jīng)開通了686萬臺,這些基站實際上每天會消耗大量的電力。
信號基站引入九天人工智能大模型技術,對海量手機流量信號精確預測,給出每臺基站的智能節(jié)能方案,全國600多萬臺基站通過人工智能等多種技術實現(xiàn)全年節(jié)電2.5億度。
王斌:我們的大模型的定位,不光是要能夠寫詩作畫,除了能夠識別傳統(tǒng)的文本類和圖片類知識,它還要能看得懂像這種雷達、紅外,這種射頻信號。
搶抓人工智能發(fā)展的歷史機遇,2023年初,我國提出,根據(jù)通信、電力、交通物流、能源等領域的需求,使用國產(chǎn)軟硬件,打造人工智能大模型,形成自主可控的全新的產(chǎn)業(yè)生態(tài)。
作為中國移動研究院AI技術專家,王斌有十多年芯片研發(fā)技術背景,之后又投入人工智能這一新賽道,是我國為數(shù)不多的既精通AI芯片又熟悉AI模型的技術人員。訓練九天大模型這一國之重器的任務就落在了王斌團隊肩上。
王斌:這是我們的一個機房,智算的服務器就在這個機架里面。
記者:有多少臺?
王斌:整個樓里面一共有2304臺服務器,折算成AI加速卡的話,超過1.8萬張。
這個全國規(guī)模最大的軟硬件都基于國產(chǎn)技術的智算集群就是九天大模型的最強大腦。
王斌帶領團隊,收集了近500萬億字符的原始文本數(shù)據(jù),幾乎涵蓋了人類有史以來全量的文本類知識,從中篩選出超10萬億字符的高質量訓練數(shù)據(jù)集。讓大模型記住這些知識不難,難的是怎么學會運用,這正是王斌必須邁過的第一道關卡。
王斌:大模型的結構跟咱們人類的大腦結構是比較類似的,像人類大腦也有差不多1000億個神經(jīng)元,可能不同的神經(jīng)元是負責不同的任務。我們平時做數(shù)學題用到的神經(jīng)元,跟做語文題用到的神經(jīng)元可能是不一樣的。
記者:所以這大模型也是這么分的?
王斌:像一個千億的大模型,我們要拆成18000份,每一個芯片在訓練它所負責那部分的時候,都要高效地從這些數(shù)據(jù)中把知識萃取出來。
大模型的18000張芯片要學會理解知識之間的邏輯關系,還要各有分工,彼此聯(lián)動,逐漸變得聰明起來,王斌帶領團隊給大模型設計學習知識的算法、控制學習進程、矯正大模型的價值觀。然而,他卻碰到了一個棘手的難題。
王斌:在我們這個行業(yè),有個說法叫得開發(fā)者得天下。像國際主流AI芯片,它的開發(fā)者人數(shù)有好幾百萬,它會有很多優(yōu)化的手段,這種優(yōu)化手段會帶來整個訓練效率的提升。咱們現(xiàn)在國內的AI芯片,它的開發(fā)者人數(shù)可能都不到10萬,可能里面還會有很多缺陷,只能說是一個坑一個坑去蹚,一個坎一個坎去邁。
從系統(tǒng)設計到功能模塊開發(fā),近150名工程師歷時一年半時間,寫出了超過120萬行的代碼,構建了一套完整的平臺軟件,瞄準國際先進行列,加速追趕。
這個智算集群里的18000張芯片運行時,好像一個龐大的方陣,整齊劃一,共同推進,只要有一張卡出現(xiàn)問題,就會導致整個方陣混亂,訓練任務失敗。在訓練了兩個月的時候,這一巨大方陣就出現(xiàn)了嚴重故障。王斌帶領技術骨干扎入18000張卡的數(shù)字深海,一層層排查,直到智算集群最底部。
中國移動研究院人工智能中心高級工程師 叢鵬宇:王斌原來積累的硬件知識,在做大模型訓練過程中,特別是排障過程中,其實發(fā)揮了很重要的作用。有很高的技術的前瞻性和技術的敏感性,能夠指導大家從更加廣泛的角度、更加有建設性的角度來解決問題。
7天后終于找到了一張故障卡。然而,這7天的停滯卻導致整個訓練任務要從頭再來。
王斌:這么大規(guī)模的資源,已經(jīng)執(zhí)行了這么長時間任務,整個效果要清零是多么大的一個打擊。為了解決這個問題,我們必須有一個即時檢測技術。
半年多,王斌帶領團隊對上萬次大大小小的故障逐個分析,找到每一個故障的根本原因,歸類整理,做出了一份故障處置清單,打造了一套自動檢測軟件,把各類故障的排查恢復時間從幾天縮短到了十幾分鐘。
在王斌團隊的努力下,國產(chǎn)AI芯片在萬卡規(guī)模上的訓練效率達到同代國際主流AI芯片水平,為后續(xù)國產(chǎn)芯片在其他領域更廣泛的應用打下了堅實基礎。
目前九天大模型已經(jīng)進入了通信、石油生產(chǎn)、農(nóng)業(yè)種植、智能制造等很多領域,正在用智慧賦能新質生產(chǎn)力。2025年1月,九天大模型被評為央企大國重器。
中國信息通信研究院人工智能研究所平臺與工程化部副主任 董昊:九天大模型不僅是我們自主技術的一種突破,同時也為我們國家大模型的應用落地提供了可復制可借鑒的成熟解決方案。
王斌:國家給了我們這種期許,能夠用國產(chǎn)算力實現(xiàn)對國際主流算力的替代,我們九天大模型還在持續(xù)迭代升級,在AI賽道上任重道遠,我們有信心有決心來應對挑戰(zhàn)。