省報(bào)告文學(xué)學(xué)會(huì)您現(xiàn)在的位置是:湖南作家網(wǎng)>湖南省作家協(xié)會(huì)>文學(xué)學(xué)會(huì)>省報(bào)告文學(xué)學(xué)會(huì)

龔盛輝:決戰(zhàn)崛起——中國(guó)超算強(qiáng)國(guó)之路(節(jié)選)

來源:   時(shí)間 : 2016-05-30

 

分享到:

  超級(jí)計(jì)算:高科技之“上甘嶺”

 

  對(duì)于超級(jí)計(jì)算在國(guó)家昌盛、民族崛起中的地位作用,有人形象生動(dòng)地說:“高科技競(jìng)爭(zhēng)是沒有硝煙的戰(zhàn)場(chǎng),超級(jí)計(jì)算是這個(gè)戰(zhàn)場(chǎng)上的上甘嶺。”

  2005年,美國(guó)總統(tǒng)向?qū)傧碌男畔⒓夹g(shù)咨詢委員會(huì)咨詢這一問題時(shí),該委員會(huì)則這樣回答:“計(jì)算科學(xué)是確保美國(guó)21世紀(jì)戰(zhàn)略地位的重要手段,而超級(jí)計(jì)算機(jī)是實(shí)現(xiàn)計(jì)算科學(xué)的最重要的載體。”

  隨著人類認(rèn)識(shí)的不斷拓展和深化,尤其是現(xiàn)代大科學(xué)、大工程、大數(shù)據(jù)的出現(xiàn),以超級(jí)計(jì)算機(jī)為平臺(tái)的超級(jí)計(jì)算,在科技發(fā)展領(lǐng)域,已漸漸與科學(xué)理論、科學(xué)實(shí)驗(yàn)“并肩而立”,成為“支撐現(xiàn)代科技大廈三大支柱”之一,是國(guó)家科技競(jìng)爭(zhēng)力的重要標(biāo)志。

  在當(dāng)今時(shí)代,從事關(guān)國(guó)家安全的戰(zhàn)略領(lǐng)域研究,到人們?nèi)粘I顥l件的改善,都離不開超算技術(shù)的支撐。可以說,在現(xiàn)代社會(huì),沒有哪一個(gè)學(xué)科像超級(jí)計(jì)算這樣在科學(xué)研究中運(yùn)用如此廣泛、如此深入、如此前沿。正如國(guó)家超算天津中心主任劉光明所說:“超級(jí)計(jì)算機(jī)算天、算地、算人,算過去、算現(xiàn)在、算未來……運(yùn)用超算給大地做CT,可以又快又準(zhǔn)地找到石油;運(yùn)用超算分析人類基因,能夠解讀生命的奧秘;運(yùn)用超算做風(fēng)洞,設(shè)計(jì)的飛機(jī)可以飛得更快、更高、更省油……”

  超級(jí)計(jì)算,現(xiàn)已走進(jìn)各行各業(yè)、千家萬戶,人們的衣、食、住、行、樂,無時(shí)無刻不在分享著超級(jí)計(jì)算算出的“紅利”。比如食品,運(yùn)用超級(jí)計(jì)算機(jī)進(jìn)行以水稻、玉米、生豬等為主要對(duì)象的基因工程研究,讓糧食產(chǎn)量更高、味道更美、營(yíng)養(yǎng)更豐富,使生豬長(zhǎng)得更快、肉質(zhì)更好、更有利于人類健康……,比如治病,超級(jí)計(jì)算讓各種新藥研制周期從數(shù)年甚至上十年縮短到一年以內(nèi)甚至幾個(gè)月,讓需要化療、放療的癌癥病人的基因檢測(cè)過程由一兩個(gè)月縮短為幾分鐘……,比如天氣預(yù)報(bào),超級(jí)計(jì)算能在幾秒內(nèi)算出未來一周天氣情況,在一天內(nèi)完成過去幾年甚至幾十年完成的計(jì)算工作,甚至可以預(yù)測(cè)地震、海嘯等自然災(zāi)害……,比如娛樂,人們直呼“酷極”“過癮”的美國(guó)電影《阿凡達(dá)》《生化危機(jī)2》以及國(guó)產(chǎn)電影《關(guān)云長(zhǎng)》、新版電視劇《西游記》等影視劇精彩絕倫的動(dòng)漫渲染,都是依靠超級(jí)計(jì)算完成的……

  目前,有賴于超級(jí)計(jì)算機(jī)解決的挑戰(zhàn)性問題,如汽車、飛機(jī)、輪船制造如何改善空氣/流體動(dòng)力學(xué)結(jié)構(gòu)、減少燃料消耗和噪音、提高防撞強(qiáng)度和乘坐舒適度;防范和減輕氣候變化帶來的破壞;幫助人類尋找疾病治療的革命性方法;通過預(yù)警降低地震造成的生命和財(cái)產(chǎn)損失;地球物理學(xué)中的大數(shù)據(jù)處理與模擬;對(duì)天體演變進(jìn)行建模和理論試驗(yàn);模擬影響社會(huì)健康和安全事件及尋找應(yīng)對(duì)措施和規(guī)劃;發(fā)現(xiàn)高經(jīng)濟(jì)價(jià)值的物質(zhì)及其反應(yīng);尋找人類活動(dòng)、社會(huì)發(fā)展規(guī)律……,這些問題涉及交通工具制造、氣象預(yù)報(bào)、生物信息、地震監(jiān)測(cè)、地球科學(xué)、天體物理、公共健康、材料科學(xué)、人類/組織系統(tǒng)研究等眾多學(xué)科,幾乎涵蓋科學(xué)研究的每一個(gè)領(lǐng)域和社會(huì)生活的方方面面。

  換言之,當(dāng)今時(shí)代離開了超級(jí)計(jì)算,人類對(duì)高精尖科學(xué)問題的探索將舉步維艱,甚至寸步難行!

  超級(jí)計(jì)算機(jī),是名副其實(shí)的“國(guó)之重器”“高科技之上甘嶺”!

  60年前,我志愿軍將士不畏強(qiáng)敵,在朝鮮上甘嶺地區(qū)與以美國(guó)為代表的聯(lián)合國(guó)軍展開生死決戰(zhàn)。60年后,我國(guó)科技尖兵以大無畏英雄氣概,又與以美國(guó)為代表的西方國(guó)家在超級(jí)計(jì)算機(jī)領(lǐng)域打響了“上甘嶺戰(zhàn)役”。

  這場(chǎng)科技戰(zhàn)役,一如當(dāng)年上甘嶺決戰(zhàn),亦是一次實(shí)力懸殊、極不平等的較量!

  1946年2月14日,美國(guó)賓夕法尼亞大學(xué)教授莫奇利、講師??颂睾同F(xiàn)代計(jì)算機(jī)理論奠基人馮·諾依曼舉起香檳酒,慶賀他們研制成功世界上第一臺(tái)電子數(shù)字計(jì)算機(jī)時(shí),中國(guó)的統(tǒng)治者蔣介石剛剛向他的愛將杜聿明下達(dá)了向中國(guó)共產(chǎn)黨東北民主聯(lián)軍發(fā)起進(jìn)攻的命令,內(nèi)戰(zhàn)進(jìn)入白熱化階段。此后十年,中國(guó)的計(jì)算機(jī)工程又遲遲未能上馬。由此可見,中國(guó)對(duì)這一后來改變整個(gè)人類生活的新興科技的探索起步有多晚、差距有多大。

  但新中國(guó)有一支“胸懷祖國(guó)、志在高峰、團(tuán)結(jié)協(xié)作、頑強(qiáng)拼搏”的計(jì)算機(jī)科技攻關(guān)隊(duì)伍——銀河團(tuán)隊(duì)。他們不畏強(qiáng)國(guó)重重封鎖、層層壓制,躬身沖刺,奮起直追,先后研制出中國(guó)第一臺(tái)電子管專用計(jì)算機(jī)、第一臺(tái)晶體管通用計(jì)算機(jī)、第一臺(tái)每秒百萬次計(jì)算機(jī)、第一臺(tái)每秒億次向量巨型機(jī)、第一臺(tái)每秒10億次并行巨型機(jī)、第一臺(tái)每秒100億次超大規(guī)模并行巨型機(jī)……,創(chuàng)造了“中國(guó)芯”“中國(guó)麒麟”“中國(guó)第一網(wǎng)”等科學(xué)奇跡,發(fā)展壯大為“中國(guó)第一超算團(tuán)隊(duì)”。

  21世紀(jì)初,隨著每秒100萬億次超級(jí)計(jì)算機(jī)技術(shù)高峰被成功攻克,人類對(duì)超級(jí)計(jì)算機(jī)技術(shù)的探索,面臨著一系列難以逾越的關(guān)鍵技術(shù)“高墻”,這意味著世界各國(guó)對(duì)新一代超級(jí)計(jì)算機(jī)的攻堅(jiān)站在了同一起跑線上。

  銀河團(tuán)隊(duì)抓住這一歷史機(jī)遇,果斷與世界強(qiáng)國(guó)展開決戰(zhàn),發(fā)起了超級(jí)計(jì)算機(jī)領(lǐng)域的“上甘嶺戰(zhàn)役”,率先突破新一代超級(jí)計(jì)算機(jī)主流技術(shù)——CPU+GPU異構(gòu)融合體系結(jié)構(gòu)技術(shù)。

  我軍英雄將士在上甘嶺不畏犧牲、浴血奮戰(zhàn),打出了軍威,打出了國(guó)威。

  中國(guó)科技尖兵在世界超級(jí)計(jì)算機(jī)領(lǐng)域打響的“上甘嶺戰(zhàn)役”,也打出了“中國(guó)自豪”“中國(guó)驕傲”:

  “天河一號(hào)”二期系統(tǒng),2010年成功登上世界超級(jí)計(jì)算機(jī)排名冠軍寶座,中國(guó)自鴉片戰(zhàn)爭(zhēng)以來第一次走上世界科技競(jìng)賽最高領(lǐng)獎(jiǎng)臺(tái)!

  “天河二號(hào)”,自2013年問世后,已連續(xù)5次蟬聯(lián)世界超級(jí)計(jì)算機(jī)排名冠軍,標(biāo)志著中國(guó)在超級(jí)計(jì)算機(jī)領(lǐng)域已走在世界前列!

 

  決戰(zhàn)時(shí)機(jī)

 

  隨著21世紀(jì)之門向人類徐徐開啟,“并行計(jì)算時(shí)代”開始遭遇“寒流”。這股“寒流”的顯著標(biāo)志,就是單芯片性能提升受到制備工藝限制而大大放緩。也就是說,科學(xué)家們提高超級(jí)計(jì)算機(jī)系統(tǒng)的整體性能,只能依賴于加大系統(tǒng)規(guī)模。這樣一來,系統(tǒng)性能在突破每秒千萬億次后,就會(huì)出現(xiàn)一系列難以逾越的“高墻”:

  比如體積,它將有幾個(gè)足球場(chǎng)那么大。

  比如功耗,需要建一個(gè)專用的發(fā)電站,才能滿足它的功耗。

  以日本“地球模擬器”為例。日本NEC公司于2004年6月推出的這臺(tái)機(jī)器,雖然峰值性能達(dá)到35.86TFLOPS,一度搶占國(guó)際TOP500排名第一。但它采用了5120個(gè)定制向量處理器,功耗高達(dá)12MW,其機(jī)房共有四層,機(jī)器存放在四樓,三樓布置了上百公里長(zhǎng)的銅質(zhì)電纜用于全局互連,二樓是空調(diào)房,一樓則是電力房,這樣布局的原因是由于它功耗太大。雖然“地球模擬器”在可編程性和系統(tǒng)實(shí)用效率方面有所變革,但其極高的功耗和硬件成本,使得該機(jī)器成為邁向高效能計(jì)算的反面典型。

  隨著體積急劇膨脹、功耗迅猛攀升,還出現(xiàn)了并行算法設(shè)計(jì)困難、通信存儲(chǔ)帶寬不足、運(yùn)行維護(hù)成本大大增加、系統(tǒng)可靠性差、安全性能低……

  這一個(gè)個(gè)問題,都是難以攻克的技術(shù)瓶頸。

  超級(jí)計(jì)算機(jī)技術(shù)再跨越,需要新的體系結(jié)構(gòu)理論來支撐。超級(jí)計(jì)算機(jī)純粹CPU超大規(guī)模并行計(jì)算技術(shù)路線,開始步入“冰封”時(shí)期。

  這意味著在高性能計(jì)算機(jī)新的技術(shù)高峰面前,中國(guó)等發(fā)展中國(guó)家的超級(jí)計(jì)算機(jī)發(fā)展,和美、日等發(fā)達(dá)國(guó)家都處于同一起跑線,我國(guó)在超級(jí)計(jì)算機(jī)領(lǐng)域決戰(zhàn)決勝、沖擊“珠峰”的時(shí)機(jī)已經(jīng)來臨!

  為超級(jí)計(jì)算機(jī)技術(shù)“破冰”的東風(fēng)是什么?

  超級(jí)計(jì)算機(jī)發(fā)展之路在何方?

  在超級(jí)計(jì)算機(jī)技術(shù)發(fā)展的十字路口,有人在期待,有人在徘徊,有人在觀望,更多的人在躬身探索。

  國(guó)防科技大學(xué)計(jì)算機(jī)學(xué)院大樓旁的銀河廣場(chǎng)上,一名身材魁梧、濃眉大眼、氣宇軒昂的中年軍人,時(shí)而慢慢踱步,時(shí)而駐足沉思,時(shí)而抬頭仰望一眼廣袤的太空。

  他就是銀河系列超級(jí)計(jì)算機(jī)總設(shè)計(jì)師楊學(xué)軍教授。

  楊學(xué)軍手上夾著香煙,一口接一口地抽著,一支接一支地點(diǎn)著。他的思緒,隨著緩緩?fù)鲁龅臒熿F,裊裊地飄向太空,飄向世界,飄向深邃的歷史……

  在人類計(jì)算機(jī)發(fā)展史上,無論電子管計(jì)算機(jī)時(shí)代、晶體管計(jì)算機(jī)時(shí)代、集成電路計(jì)算機(jī)時(shí)代、向量計(jì)算機(jī)時(shí)代、并行計(jì)算機(jī)時(shí)代,還是大規(guī)模、超大規(guī)模并行計(jì)算機(jī)時(shí)代,為什么美國(guó)都能成為世界領(lǐng)跑者?

  稍微留心考察一下便會(huì)發(fā)現(xiàn),美國(guó)不僅研制成功世界上第一臺(tái)計(jì)算機(jī),而且在此后60多年幾乎獨(dú)占了計(jì)算機(jī)重大基礎(chǔ)創(chuàng)新或理論創(chuàng)新成果。電子管、晶體管、集成電路、芯片等計(jì)算機(jī)元器件,還有向量計(jì)算、并行計(jì)算、大規(guī)模并行計(jì)算等計(jì)算機(jī)總體結(jié)構(gòu)理論,特別是曾給人們對(duì)并行計(jì)算認(rèn)識(shí)帶來三次飛躍的三個(gè)公式:計(jì)算性能加速比公式、Gustafson加速比公式、計(jì)算機(jī)效能模型框架,無一不是美國(guó)科學(xué)家的發(fā)明。這一個(gè)個(gè)首創(chuàng)產(chǎn)生的推動(dòng)力,加上日益增長(zhǎng)的計(jì)算機(jī)應(yīng)用需求的牽引力,讓美國(guó)計(jì)算機(jī)技術(shù)開創(chuàng)了一個(gè)個(gè)“新紀(jì)元”“新時(shí)代”,也一次次把美國(guó)推向世界計(jì)算機(jī)發(fā)展乃至整個(gè)世界科技的先鋒潮頭。

  科技首創(chuàng),尤其是重大基礎(chǔ)技術(shù)、基礎(chǔ)理論首創(chuàng),是科技發(fā)展和經(jīng)濟(jì)發(fā)展的強(qiáng)大引擎。在它的牽引下,英國(guó)在18世紀(jì)開啟了近代工業(yè)革命,美國(guó)在19世紀(jì)初實(shí)現(xiàn)了經(jīng)濟(jì)強(qiáng)勢(shì)崛起,德國(guó)、日本在戰(zhàn)后迅速醫(yī)治戰(zhàn)敗創(chuàng)傷,重新躋身世界經(jīng)濟(jì)強(qiáng)國(guó)……

  新中國(guó)成立尤其是改革開放后,國(guó)家重視科學(xué)事業(yè),技術(shù)進(jìn)步日新月異。但其源頭動(dòng)力大部分來自引進(jìn),或是引進(jìn)后再創(chuàng)新,真正的技術(shù)首創(chuàng),特別是引領(lǐng)世界科學(xué)前沿、支撐國(guó)家產(chǎn)業(yè)變革的重大基礎(chǔ)技術(shù)、基礎(chǔ)理論首創(chuàng),與美國(guó)、日本及歐洲發(fā)達(dá)國(guó)家相比,依然“鳳毛麟角”。

  中國(guó)超級(jí)計(jì)算機(jī)技術(shù)發(fā)展始終處于“跟蹤”“追隨”狀態(tài),總是比別人慢那么“一點(diǎn)點(diǎn)”的原因,也正是因?yàn)槭讋?chuàng)不足。

  唯有突破首創(chuàng)性瓶頸,才能從制造大國(guó)邁向創(chuàng)造大國(guó),才能真正實(shí)現(xiàn)中華民族的偉大復(fù)興!

  中國(guó)要在超級(jí)計(jì)算機(jī)技術(shù)領(lǐng)域由“跟蹤”“追隨”變?yōu)?ldquo;超越”“領(lǐng)跑”,必須在重大基礎(chǔ)技術(shù)、基礎(chǔ)理論上另辟蹊徑,在別人尚未涉足的荒草地上闖出一條新路!

  在世界超級(jí)計(jì)算機(jī)技術(shù)發(fā)展面臨困境之時(shí),中國(guó)計(jì)算機(jī)科學(xué)家有責(zé)任、有義務(wù)為國(guó)家乃至為世界科技進(jìn)步作出應(yīng)有的貢獻(xiàn)!

  中國(guó)首次與世界首創(chuàng)

  什么樣的體系結(jié)構(gòu)可以破除超大規(guī)模并行超級(jí)計(jì)算機(jī)面臨的“高大難”(功耗高、體積大、技術(shù)實(shí)現(xiàn)難)窘境呢?

  經(jīng)過一番苦心思索、反復(fù)論證,楊學(xué)軍在世界上最早提出異構(gòu)融合體系結(jié)構(gòu)技術(shù)。

  所謂異構(gòu)融合體系結(jié)構(gòu),就是在計(jì)算結(jié)點(diǎn)中包含兩種不同類型的處理器。一種是傳統(tǒng)通用處理器(CPU),用來處理常規(guī)任務(wù),另一種是專用定制處理器,用來處理特定算法,這種處理器經(jīng)過特別設(shè)計(jì),處理特定算法時(shí)性能非常高,可以大大提升計(jì)算結(jié)點(diǎn)的整體性能。

  可什么樣的處理器能充當(dāng)專用處理器、完成特定算法的使命呢?

  這時(shí),美國(guó)斯坦福大學(xué)計(jì)算機(jī)系主任的Bill Dally提出的一種流處理器Imagine進(jìn)入了楊學(xué)軍的視野。他憑著深厚的學(xué)術(shù)底蘊(yùn)和多年率團(tuán)攻關(guān)的實(shí)踐經(jīng)驗(yàn),敏銳地意識(shí)到這種有著計(jì)算與訪存分離、顯式開發(fā)局部性等諸多創(chuàng)新思想的流處理器Imagine,是一種很有前景的體系結(jié)構(gòu)。他打算把它與CPU一起用于超級(jí)計(jì)算機(jī)。

  可流處理器Imagine僅僅是一款研究性的原型芯片,一般也只用來處理流媒體相關(guān)的計(jì)算任務(wù),究竟能不能用來處理科學(xué)與工程計(jì)算,還是個(gè)謎。

  為找到這個(gè)謎底,2006年,楊學(xué)軍帶領(lǐng)由自己學(xué)生組成的流處理器小組及硬件、軟件設(shè)計(jì)團(tuán)隊(duì),向用于科學(xué)計(jì)算流處理技術(shù)展開攻關(guān)。

  將流處理器與科學(xué)計(jì)算隔離開來的關(guān)鍵技術(shù)難題主要有三個(gè):如何設(shè)計(jì)世界上第一款面向科學(xué)計(jì)算的64位流處理器?如何在這個(gè)流處理器上重寫或改寫應(yīng)用程序?如何將這些應(yīng)用程序高效地映射到處理器上執(zhí)行?

  這些問號(hào),拽著楊學(xué)軍及其團(tuán)隊(duì)成員的思緒快速且不停歇地運(yùn)轉(zhuǎn)起來。

  身兼行政領(lǐng)導(dǎo)、型號(hào)總師等數(shù)職的楊學(xué)軍,無論工作有多忙,每周都要抽出兩天時(shí)間與大家交流討論學(xué)術(shù)問題,而且常常因此錯(cuò)過吃飯時(shí)間。這時(shí)他就自掏腰包給大家改善伙食,在飯桌上邊吃邊繼續(xù)討論課題,經(jīng)常有意想不到的收獲。

  平時(shí),楊學(xué)軍和團(tuán)隊(duì)成員身上都帶著兩塊手機(jī)電池。一旦有新發(fā)現(xiàn),就打電話交流討論,常常一打就是一兩個(gè)小時(shí),打到兩塊電池都沒電,打得手機(jī)燙耳朵。

  他們成功突破了體系結(jié)構(gòu)設(shè)計(jì)、程序可流化理論構(gòu)建、異構(gòu)編程模型設(shè)計(jì)等一道道技術(shù)“高墻”,驗(yàn)證了流處理器用于高性能計(jì)算的可行性,提出了可用于科學(xué)與工程計(jì)算的64位流處理器FT64,并成功應(yīng)用于大規(guī)模并行系統(tǒng)的構(gòu)建。

  這些研究成果,是名副其實(shí)的世界首創(chuàng)!

  2007年6月,楊學(xué)軍帶領(lǐng)團(tuán)隊(duì)完成的流處理器研究論文《64位流處理器體系結(jié)構(gòu)研究》,發(fā)表在國(guó)際計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)年會(huì)(ISCA)上,并被國(guó)際權(quán)威期刊《IEEE Transactions on Parallel and Distributed Systems》錄取。該論文介紹了國(guó)防科技大學(xué)自主設(shè)計(jì)的面向科學(xué)計(jì)算的64位流處理器和其編程方法。IEEE TPDS 2009期刊轉(zhuǎn)載該論文時(shí),團(tuán)隊(duì)又?jǐn)U充了基于依賴關(guān)系的流化理論,流編譯優(yōu)化方法,以及擴(kuò)充實(shí)驗(yàn)數(shù)據(jù)和結(jié)果。

  這是國(guó)際計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)年會(huì)(ISCA)錄取的第一篇來自中國(guó)研究機(jī)構(gòu)、由中國(guó)學(xué)者獨(dú)立完成的學(xué)術(shù)論文,也是計(jì)算機(jī)發(fā)展史上第一個(gè)由中國(guó)人提出的體系結(jié)構(gòu)理論。

  論文發(fā)表后,在國(guó)內(nèi)外計(jì)算機(jī)領(lǐng)域引起轟動(dòng)。

  流處理器技術(shù)先驅(qū)、美國(guó)斯坦福大學(xué)計(jì)算機(jī)系主任William Dally認(rèn)為:“該論文在面向科學(xué)計(jì)算的硬件設(shè)計(jì)上和編程方法的研究上為流處理器的發(fā)展取得了重要的進(jìn)步。”

  美國(guó)藝術(shù)與科學(xué)學(xué)院院士、美國(guó)工程院院士、NVIDIA公司首席科學(xué)家、原Stanford大學(xué)計(jì)算機(jī)系主任Bill Dally稱贊:“該論文實(shí)現(xiàn)了世界上第一款用于科學(xué)計(jì)算的流處理器。”

  美國(guó)Wisconsin—Madison大學(xué)和Texas大學(xué)的學(xué)者在體系結(jié)構(gòu)領(lǐng)域頂級(jí)會(huì)議MICRO’2008上發(fā)表文章,稱楊學(xué)軍關(guān)于流處理器研究論文“描述了一個(gè)面向科學(xué)計(jì)算應(yīng)用的可擴(kuò)展的流處理器”。

  CPU與64位流處理器異構(gòu)融合體系結(jié)構(gòu),為世界超級(jí)計(jì)算機(jī)技術(shù)突破“冰封期”提供了嶄新的思路。

 

  “走鵑”打響決戰(zhàn)第一槍

 

  楊學(xué)軍的《64位流處理器體系結(jié)構(gòu)研究》發(fā)表一年后,即2008年6月18日,美國(guó)突然宣布:IBM公司采用異構(gòu)融合體系結(jié)構(gòu)技術(shù)成功研制出一臺(tái)峰值速度每秒1.37578千萬億次,Linpack測(cè)試性每秒1.026千萬億次的機(jī)器,并將其命名為“走鵑”。

  “走鵑”由6480個(gè)AMD的Opteron處理器和12960個(gè)IBM cell處理器構(gòu)成,其中cell處理器就是一種專用處理器,它的計(jì)算性能非常高。“走鵑”充分體現(xiàn)了異構(gòu)并行技術(shù)的先進(jìn)性,不僅大幅提高了單個(gè)計(jì)算結(jié)點(diǎn)的性能,并大大降低了功耗,整個(gè)系統(tǒng)的規(guī)模也得到大幅縮減。

  舉個(gè)例子,當(dāng)時(shí)和“走鵑”同處于國(guó)際TOP500排行榜前20名、位于美國(guó)勞倫斯國(guó)家實(shí)驗(yàn)室的BlueGene/L擁有65536個(gè)結(jié)點(diǎn),IMB公司的另一臺(tái)BlueGene/P系統(tǒng)有73728個(gè)結(jié)點(diǎn),而“走鵑”則只有3240個(gè)結(jié)點(diǎn),只有前兩個(gè)系統(tǒng)的1/20。這得益于采用了cell加速器,使得“走鵑”單結(jié)點(diǎn)性能高達(dá)425GFlops,而BuleGene/L和BlueGene/P分別只有7.3和13Gflops。如此大幅度的結(jié)點(diǎn)規(guī)模縮減,使通信、存儲(chǔ)、編程、功耗等技術(shù)瓶頸一下子放寬了。

  “走鵑”的巨大技術(shù)優(yōu)勢(shì),引起了學(xué)術(shù)界和產(chǎn)業(yè)界研究異構(gòu)融合計(jì)算的熱潮。

  “走鵑”在異構(gòu)融合體系結(jié)構(gòu)技術(shù)領(lǐng)域的捷足先登,打響了新一輪決戰(zhàn)的第一槍,世界強(qiáng)國(guó)在超級(jí)計(jì)算機(jī)領(lǐng)域的較量正式拉開序幕!

  21世紀(jì)的中國(guó),別無選擇,唯有接招,準(zhǔn)備決戰(zhàn)!

  黨的十六大向全黨、全國(guó)人民發(fā)出“建設(shè)創(chuàng)新型國(guó)家”偉大號(hào)召。

  “東方雄獅”自從1949年站立起來,開始健步走向世界,尤其是1978年改革開放后,國(guó)家經(jīng)濟(jì)高速發(fā)展,21世紀(jì)初國(guó)家經(jīng)濟(jì)總量成功超越日本,成為世界第二大經(jīng)濟(jì)體,并繼續(xù)保持快速發(fā)展態(tài)勢(shì),向世界經(jīng)濟(jì)霸主美國(guó)逼近。與此同時(shí),國(guó)防、軍隊(duì)現(xiàn)代化信息化建設(shè)快馬加鞭、突飛猛進(jìn)。可以說,人民實(shí)現(xiàn)中華民族復(fù)興的愿望,從未像現(xiàn)在這樣急切,時(shí)機(jī)也從未像現(xiàn)在這樣成熟。

  國(guó)家從“制造大國(guó)”向“創(chuàng)造王國(guó)”的飛躍、科技強(qiáng)軍的崇高使命、民族崛起的偉大夢(mèng)想,急需高性能計(jì)算這個(gè)寬闊堅(jiān)實(shí)的現(xiàn)代化平臺(tái)提供強(qiáng)大支撐、強(qiáng)力承載!

  在超級(jí)計(jì)算機(jī)技術(shù)這個(gè)沒有硝煙的戰(zhàn)場(chǎng)上,中國(guó)人已經(jīng)被別人包圍得太久,忍受了太多的憋屈。東方巨龍期待騰飛!中國(guó)超級(jí)計(jì)算機(jī)事業(yè)必須跨越!

  2007年初,中共中央總書記、國(guó)家主席、中央軍委主席胡錦濤聞知國(guó)防科技大學(xué)研制出新一代超級(jí)計(jì)算機(jī)后批示:“希望同志們進(jìn)一步增強(qiáng)攀登世界科技高峰的信心和勇氣,不斷提高自主創(chuàng)新能力,努力在若干重要領(lǐng)域掌握一批核心技術(shù),為推進(jìn)科技強(qiáng)軍、建設(shè)創(chuàng)新型國(guó)家作出新的更大貢獻(xiàn)!”

  黨中央的囑托,就是命令!就是使命!

  面對(duì)世界強(qiáng)國(guó)咄咄逼人的攻勢(shì),以楊學(xué)軍為代表的國(guó)防科技大學(xué)計(jì)算機(jī)人,沉著應(yīng)對(duì),大膽迎戰(zhàn)。通過科學(xué)審時(shí)度勢(shì),他們認(rèn)為國(guó)防科技大學(xué)計(jì)算機(jī)學(xué)院的超級(jí)計(jì)算機(jī)事業(yè),通過銀河人半個(gè)世紀(jì)前仆后繼的艱辛努力,占領(lǐng)了一座座科技高峰,形成了自己的特色,擁有了厚實(shí)的積累,不僅掌握了下一代巨型主流技術(shù)——異構(gòu)融合體系結(jié)構(gòu)核心技術(shù),而且與世界強(qiáng)國(guó)展開決戰(zhàn)、搶占世界高峰的其他支撐技術(shù)條件也開始顯現(xiàn)。

 

  超越之徑

 

  2006年,國(guó)家推出“863”項(xiàng)目——“高速計(jì)算機(jī)及網(wǎng)格服務(wù)環(huán)境”建設(shè),制定了“先研制兩臺(tái)每秒百萬億次超級(jí)計(jì)算機(jī)、再研制一臺(tái)每秒千萬億次超級(jí)計(jì)算機(jī)”的“兩步走”戰(zhàn)略。

  我國(guó)著名計(jì)算機(jī)制造商曙光公司、聯(lián)想公司啟動(dòng)“曙光500A”“深騰7000”兩臺(tái)每秒百萬億次機(jī)攻堅(jiān)之時(shí),剛剛研制完成每秒10萬億次超級(jí)計(jì)算機(jī)的國(guó)防科技大學(xué)計(jì)算機(jī)技術(shù)創(chuàng)新團(tuán)隊(duì)不等、不靠上級(jí)下達(dá)任務(wù),主動(dòng)把目光瞄準(zhǔn)每秒千萬億次超級(jí)計(jì)算機(jī),開始向這一目標(biāo)發(fā)起沖刺。

  2007年召開的黨的十七大指出,要提高自主創(chuàng)新能力,建設(shè)創(chuàng)新型國(guó)家,加快建設(shè)國(guó)家創(chuàng)新體系,把掌握信息產(chǎn)業(yè)核心技術(shù)作為發(fā)展我國(guó)科技戰(zhàn)略重點(diǎn),并作出“建立和完善軍民結(jié)合、寓軍于民的武器裝備科研生產(chǎn)體系、軍隊(duì)人才培養(yǎng)體系和軍隊(duì)保障體系,走出一條中國(guó)特色軍民融合式發(fā)展路子”的戰(zhàn)略決策。

  這年底,胡錦濤總書記在天津考察時(shí)提出,濱海新區(qū)要努力在貫徹落實(shí)科學(xué)發(fā)展觀、推動(dòng)經(jīng)濟(jì)社會(huì)又好又快發(fā)展方面走在全國(guó)前列,在保障和改善民生、促進(jìn)社會(huì)和諧方面走在全國(guó)前列,成為深入貫徹落實(shí)科學(xué)發(fā)展觀的排頭兵。

  為落實(shí)黨中央、胡錦濤總書記號(hào)召,天津市委市政府提出,濱海新區(qū)要充分發(fā)揮引擎作用、示范作用、服務(wù)作用、門戶作用、帶頭作用,堅(jiān)持改革開放帶動(dòng)、科技創(chuàng)新引領(lǐng)、高端產(chǎn)業(yè)支撐、服務(wù)能力提升、發(fā)展環(huán)境保障,走出一條科學(xué)發(fā)展、和諧發(fā)展、率先發(fā)展之路。

  與此同時(shí),國(guó)防科技大學(xué)黨委在深入學(xué)習(xí)黨十七大精神時(shí)認(rèn)識(shí)到,學(xué)校具備較強(qiáng)的辦學(xué)實(shí)力,承擔(dān)了一大批國(guó)防科研任務(wù),取得了許多科研成果,有著較強(qiáng)的科技與人才優(yōu)勢(shì),理應(yīng)為建設(shè)創(chuàng)新型國(guó)家作出更大貢獻(xiàn),理應(yīng)率先走開軍民融合之路,為推動(dòng)地方經(jīng)濟(jì)建設(shè)提供更大技術(shù)支持、人才支撐。

  同樣的目標(biāo)、共同的愿望,將國(guó)防科技大學(xué)與天津?yàn)I海新區(qū)緊緊聯(lián)結(jié)在一起。雙方通過友好協(xié)商,于2007年2月簽署了全面科技合作協(xié)議。

  雙方著眼國(guó)家重大戰(zhàn)略需求,充分發(fā)揮天津市濱海新區(qū)作為國(guó)家綜合配套改革試驗(yàn)區(qū)的政策和資源優(yōu)勢(shì),充分發(fā)揮國(guó)防科技大學(xué)的科技和人才優(yōu)勢(shì),加大合作力度,加快科技創(chuàng)新和成果轉(zhuǎn)化基地建設(shè),積極爭(zhēng)取重大科技項(xiàng)目和國(guó)際前沿項(xiàng)目,大力提高自主創(chuàng)新能力,加快科技成果轉(zhuǎn)化步伐,實(shí)現(xiàn)互利共贏,在共同推進(jìn)創(chuàng)新型國(guó)家、信息化軍隊(duì)建設(shè)中實(shí)現(xiàn)共同發(fā)展。

  雙方認(rèn)為,超算技術(shù)是關(guān)系國(guó)家安全和發(fā)展的高科技前沿技術(shù),是國(guó)家經(jīng)濟(jì)、國(guó)防與科技實(shí)力的重要象征,應(yīng)集中兩家單位優(yōu)勢(shì)資源,為國(guó)家搶占超級(jí)計(jì)算機(jī)戰(zhàn)略技術(shù)制高點(diǎn)作貢獻(xiàn)。

  為此,國(guó)防科技大學(xué)和天津共同啟動(dòng)“國(guó)家濱海超級(jí)計(jì)算中心”建設(shè)項(xiàng)目。通過聯(lián)合承擔(dān)“千萬億次高效能計(jì)算系統(tǒng)”研制,把該中心建成國(guó)家高性能計(jì)算應(yīng)用研發(fā)中心、大規(guī)模集成電路中心和基礎(chǔ)軟件工程中心,實(shí)現(xiàn)超算服務(wù)、技術(shù)研發(fā)、人才培養(yǎng)“三位一體”的信息產(chǎn)業(yè)集群。

  不久,國(guó)防科技大學(xué)和天津?yàn)I海新區(qū)的創(chuàng)新之舉得到國(guó)家大力支持。國(guó)家“863”把“千萬億次高效能計(jì)算系統(tǒng)”列為重大專項(xiàng)。同時(shí),“高性能通用微處理器”“高端服務(wù)器操作系統(tǒng)”也被納入國(guó)家“核高基”重大專項(xiàng)。

  進(jìn)攻目標(biāo)鎖定后,攻擊路線就是關(guān)鍵。

  兩年前,楊學(xué)軍帶領(lǐng)大伙探討64位流處理器Imagine時(shí),他的腦海里就同時(shí)思考著另一種與之有著異曲同工之妙的電子芯片——GPU的科學(xué)計(jì)算問題。也就是說,研制每秒千萬億次超級(jí)計(jì)算機(jī)可走既定的CPU+64位流處理器Imagine異構(gòu)融合技術(shù)路線、也可嘗試CPU(通用微處理器)+GPU(專用微處理器)異構(gòu)融合技術(shù)路線。

  對(duì)于前者,團(tuán)隊(duì)已攻關(guān)多年,有著比較雄厚的技術(shù)積累,成功可能性比較大。而對(duì)后者,當(dāng)時(shí)國(guó)際上公認(rèn)GPU最高計(jì)算效能僅為20%,根本不可能用于研制超級(jí)計(jì)算機(jī)。

  但使用GPU構(gòu)建超級(jí)計(jì)算機(jī)的優(yōu)勢(shì)顯而易見:它運(yùn)算速度快,比CPU高出6倍,能有效縮小機(jī)器空間;它能耗低,僅有CPU的五分之一,可有效解決超級(jí)計(jì)算機(jī)高能耗短板;它在市場(chǎng)上流通的品種很多,可供選擇性大,而且技術(shù)成熟;它價(jià)格便宜,可有效提高機(jī)器的性價(jià)比,讓用戶用得起……

  而將GPU用于超級(jí)計(jì)算機(jī)研制的劣勢(shì),同樣不容忽視:它能否用于高性能計(jì)算機(jī),還是個(gè)未知數(shù),探索之路將非常艱難,而且風(fēng)險(xiǎn)很大。

  以楊學(xué)軍為總設(shè)計(jì)師的總師組,經(jīng)過深入技術(shù)調(diào)研、反復(fù)權(quán)衡利弊,決定大膽嘗試CPU+GPU異構(gòu)融合技術(shù)之路。

  從每秒10萬億次直接沖刺每秒1000萬億次,走別人沒有走過的CPU+GPU技術(shù)路線,他們的這一超常決策,在業(yè)內(nèi)引起一片嘩然。

  “研制超級(jí)計(jì)算機(jī)一般都以10倍速度逐步遞增,這已成為國(guó)際貫例。從每秒10萬億次直接向每秒1000萬億次跨越,這一步是不是邁得大了點(diǎn)?能跨過去嗎?”

  “就是把機(jī)器做出來了,應(yīng)用水平能跟上嗎?”

  “GPU能否用于高性能計(jì)算還是個(gè)謎,用它研制超級(jí)計(jì)算機(jī),這是不是太冒險(xiǎn)了?”

  ……

  面對(duì)沸沸揚(yáng)揚(yáng)的疑問,楊學(xué)軍率領(lǐng)的總師組認(rèn)為,兩步并作一步走的事,雖然國(guó)際上少有,但對(duì)銀河人來說卻并不是什么新鮮事。當(dāng)年慈云桂帶領(lǐng)大家研制“遠(yuǎn)望一號(hào)”遠(yuǎn)洋測(cè)量船中心計(jì)算機(jī)時(shí),不也是從每秒萬次直接向每秒100萬次沖刺的嘛。當(dāng)今世界,超級(jí)計(jì)算機(jī)每10年性能提升1000倍,在此情況下,若按照所謂“慣例”,按部就班、亦步亦趨,只能永遠(yuǎn)處于“跟班”“借鑒”“仰人鼻息”的被動(dòng)局面。只有從荊棘叢中、險(xiǎn)關(guān)狹隘另辟蹊徑,才能殺出重圍,率先“登頂”。至于用于圖像處理的GPU能否用于科學(xué)計(jì)算,楊學(xué)軍堅(jiān)定地認(rèn)為,憑著團(tuán)隊(duì)數(shù)十年超級(jí)計(jì)算機(jī)教學(xué)科研積淀的厚實(shí)底蘊(yùn),和對(duì)64位流處理器研究取得的創(chuàng)新成果、技術(shù)基礎(chǔ),定能觸類旁通,攻克GPU計(jì)算效能這一世界難題。

  國(guó)防科技大學(xué)黨委積極支持他們的跨越壯舉,向創(chuàng)新團(tuán)隊(duì)發(fā)出了“我們的胸懷有多寬,我們的事業(yè)就有多大”的動(dòng)員令,鼓勵(lì)大家確立決戰(zhàn)決心,堅(jiān)定決勝信心。

  以鄒鵬為院長(zhǎng)、周建設(shè)為政委的學(xué)院領(lǐng)導(dǎo)班子,在學(xué)校黨委領(lǐng)導(dǎo)下,根據(jù)任務(wù)需求,把學(xué)院高性能計(jì)算、高性能微處理、基礎(chǔ)軟件、網(wǎng)絡(luò)技術(shù)、應(yīng)用技術(shù)等國(guó)家創(chuàng)新團(tuán)隊(duì)進(jìn)行有機(jī)組合,編成了一支超級(jí)計(jì)算機(jī)創(chuàng)新“航母艦隊(duì)”。

  動(dòng)員大會(huì)上,學(xué)院黨委書記、政委周建設(shè)擲地有聲地說:“我們銀河團(tuán)隊(duì),從來就是一支勇于拼搏、敢于擔(dān)當(dāng)?shù)膱F(tuán)隊(duì),為國(guó)家振興、為民族崛起、為軍隊(duì)現(xiàn)代化,要敢走別人沒有走過的路,勇于從艱難險(xiǎn)阻中闖出一條新路。我們學(xué)院黨委永遠(yuǎn)都是大家的堅(jiān)強(qiáng)后盾。成功了,榮譽(yù)屬于國(guó)家、屬于人民軍隊(duì)、屬于你們!失敗了,責(zé)任由院黨委負(fù),由我這個(gè)黨委書記負(fù)!”

  帶著國(guó)家重托、民族期望,國(guó)防科技大學(xué)超級(jí)計(jì)算機(jī)創(chuàng)新“航母編隊(duì)”,浩浩蕩蕩向著新的技術(shù)彼岸進(jìn)發(fā)!

 

  撕開突破口

 

  CPU+GPU異構(gòu)融合體系結(jié)構(gòu),形象地說,就是把眾多CPU、GPU有機(jī)地連成一枚“捆綁式火箭”( CPU相當(dāng)于主改動(dòng)機(jī)、GPU相當(dāng)于助推改動(dòng)機(jī))。

  根據(jù)這一原理,總師組創(chuàng)造性地把超級(jí)計(jì)算機(jī)系統(tǒng)分為計(jì)算機(jī)陣列、加速陣列、服務(wù)陣列,通過CPU、GPU異構(gòu)協(xié)同計(jì)算,最大限度地提高計(jì)算效能、降低能耗、減少費(fèi)用、加快速度。

  這一技術(shù)路線的最大創(chuàng)新,就是將用于圖像處理的GPU運(yùn)用于高性能計(jì)算,最大的挑戰(zhàn)就是實(shí)現(xiàn)GPU高效能計(jì)算。它成為阻擋每秒千萬億次超級(jí)計(jì)算機(jī)戰(zhàn)役進(jìn)展的第一個(gè)“堡壘”。

  2008年底,以楊學(xué)軍為總設(shè)計(jì)師的總師組,把撕開“突破口”的重任交給楊燦群和他帶領(lǐng)的突擊隊(duì)。

  經(jīng)過10余年科研實(shí)踐歷練的楊燦群,對(duì)于自己的工作有個(gè)非常精妙的比喻:“搞工程技術(shù),就像猜謎語。謎底出來了,大家恍然大悟:‘原來并不深?yuàn)W’,可在此之前,你的眼前卻是一片云山霧海,你不知道目標(biāo)在哪里,甚至不知道該朝哪個(gè)方向?qū)ふ?,可以說兩眼迷茫。”

  GPU的科學(xué)計(jì)算問題便是這樣一道謎語。

  當(dāng)時(shí),市場(chǎng)上宣稱有通用計(jì)算能力的GPU有兩種,分別由NVIDIA與AMD生產(chǎn),每種GPU都有多個(gè)型號(hào)。單獨(dú)的GPU只是一顆芯片,需要和配套的存儲(chǔ)器及外圍電路構(gòu)成顯卡才能使用,生產(chǎn)此類顯卡的廠商有好幾家,市場(chǎng)上可購(gòu)買的計(jì)算顯卡就有近20種。這林林總總的顯卡中,哪款能滿足科學(xué)計(jì)算要求?楊燦群和突擊隊(duì)員兩眼一抹黑。

  為從這眾多顯卡中找到雙精度浮點(diǎn)計(jì)算性能高、系統(tǒng)兼容性好、運(yùn)行穩(wěn)定的顯卡,楊燦群帶領(lǐng)突擊隊(duì)從2009年初開始夜以繼日地進(jìn)行大海撈針般的篩選工作。

  春節(jié)前一周,他們把一種顯卡安裝到一款主機(jī)板上測(cè)試,但軟件系統(tǒng)安裝完成后,系統(tǒng)無法啟動(dòng)。他們首先懷疑是硬件問題,但硬件技術(shù)人員堅(jiān)稱該主板質(zhì)量非常過硬。他們便從軟件找原因,但嘗試不同版本操作系統(tǒng)和顯卡驅(qū)動(dòng)后,問題依然如故。為了找到問題癥結(jié),他們?cè)诖汗?jié)期間加班加點(diǎn)。大年初四那天,他們不經(jīng)意間在主板上發(fā)現(xiàn)有個(gè)模糊標(biāo)識(shí),稱該主板有啟動(dòng)異常故障,維修后也沒有確認(rèn)故障是否徹底解決,弄得大家哭笑不得。

  還有一種顯卡含兩個(gè)GPU芯片,其驅(qū)動(dòng)程序要求接上兩個(gè)顯示器才能讓兩個(gè)GPU同時(shí)工作,這顯然不能滿足科學(xué)計(jì)算的要求,因?yàn)椴豢赡茉谝慌_(tái)計(jì)算機(jī)里安裝一大堆顯示器。他們通過查閱資料發(fā)現(xiàn),可在顯卡輸出接上電阻來模擬顯示器。為找到這種電阻,他們從塵封了上十年的器件柜中找出了幾個(gè)滿足要求的插裝電阻,解決了測(cè)試問題。

  ……

  兩個(gè)月間,他們不知經(jīng)歷了多少這樣的曲曲折折,才完成了近20款GPU的安裝、測(cè)試,終于找到了滿足計(jì)算條件的GPU。

  中國(guó)有一句諺語:“一個(gè)和尚挑水喝,兩個(gè)和尚抬水喝,三個(gè)和尚沒水喝。”

  CPU+GPU異構(gòu)融合體系結(jié)構(gòu),把數(shù)千個(gè)CPU、數(shù)千個(gè)GPU組合在一個(gè)“大廟”,它們還能賣力“挑水”嗎?

  2009年3月,他們把CPU、GPU這兩類“和尚”組合起來,利用GPU加速應(yīng)用程序進(jìn)行評(píng)測(cè),竟發(fā)現(xiàn)總性能還不到每秒600億次,而一顆CPU就有近每秒500億次的性能。也就是說GPU這個(gè)“和尚”,雖然用于圖像處理,速度驚人,但讓它與CPU放在一塊用于科學(xué)計(jì)算,就變得非常懶惰,計(jì)算效能只有20%左右。

  面對(duì)這樣的測(cè)試結(jié)果,大家心里涼了半截。須知,憑著GPU這等工作效率要造出每秒千萬億次超級(jí)計(jì)算機(jī),豈不是天方夜譚?難道真如外國(guó)專家斷定的,GPU根本不能用于科學(xué)計(jì)算機(jī)嗎?

  總設(shè)計(jì)師楊學(xué)軍得到報(bào)告后,在第一時(shí)間趕到實(shí)驗(yàn)室。聽完情況匯報(bào)后,他向身邊的妻子招招手:“玉華,你去把車開來,帶我出去轉(zhuǎn)轉(zhuǎn)。”

  這是他的工作習(xí)慣,每凡科研遇到難題時(shí),就讓妻子開車帶他去兜風(fēng)。

  “雪弗萊”駛出市區(qū),奔馳在二環(huán)高速公路上。楊學(xué)軍仰靠著座背,微閉著眼睛,讓思緒隨著從車旁呼嘯而過的春風(fēng)、撲面而來又疾速閃去的盎然春景,在科學(xué)的天地的盤旋……

  “雪弗萊”駛出高速收費(fèi)站時(shí),楊學(xué)軍掏出手機(jī),撥通了楊燦群的號(hào)碼,堅(jiān)定地說:“別人不敢走的路,并不等于走不通。從技術(shù)原理分析,GPU的計(jì)算性能,通過軟件優(yōu)化,是可以大幅提高的……”

  周建設(shè)來到實(shí)驗(yàn)給大家鼓勁:“發(fā)揚(yáng)敢闖敢干、頑強(qiáng)拼搏的銀河精神,沖破艱難險(xiǎn)阻,創(chuàng)造銀河事業(yè)新的輝煌!”

  學(xué)校召開每秒千萬億次超級(jí)計(jì)算機(jī)工程攻堅(jiān)動(dòng)員大會(huì)。學(xué)校、學(xué)院黨委向大家發(fā)出號(hào)召:“勇敢地?fù)?dān)當(dāng)起國(guó)家和民族沖擊世界超級(jí)計(jì)算機(jī)科技高峰的歷史重任,在年底前堅(jiān)決完成每秒千萬億次計(jì)算機(jī)攻關(guān)任務(wù),讓銀河的凱歌在神州大地上奏響,讓銀河的光彩再一次閃亮寰球!”

  關(guān)鍵時(shí)刻,經(jīng)學(xué)校黨委推薦、中央軍委主席胡錦濤任命廖湘科為計(jì)算機(jī)學(xué)院院長(zhǎng),同時(shí)兼任每秒千萬億次超級(jí)計(jì)算機(jī)工程總指揮和常務(wù)副總師。

  挫折面前,楊學(xué)軍總師、廖湘科總指揮一商量,竟作出這樣一個(gè)超常決策:把完成研制任務(wù)的時(shí)間節(jié)點(diǎn),由原計(jì)劃2010年底提前一年,即在2009年底前推出中國(guó)第一臺(tái)每秒千萬億次超級(jí)計(jì)算機(jī)。

  決定一宣布,把一些人的眼睛驚得圓圓的:“關(guān)鍵技術(shù)尚未突破,還提前一年完成任務(wù),能行嗎?”

  可新一代銀河人對(duì)自己充滿自信:“當(dāng)年研制‘銀河—Ⅰ’時(shí),困難還不大嗎?可前輩們頑強(qiáng)拼搏,愣是提前一年完成任務(wù)。還有‘銀河—Ⅲ’,原計(jì)劃用五年,大家齊心協(xié)力,爭(zhēng)分奪秒,僅用三年就實(shí)現(xiàn)了每秒10億次到每秒100億次的大跨越。前輩們能做到的,我們也一定能做到!”

  在楊學(xué)軍、廖湘科率領(lǐng)下,國(guó)防科技大學(xué)超級(jí)計(jì)算機(jī)創(chuàng)新團(tuán)隊(duì),拉開了每秒千萬億次超級(jí)計(jì)算機(jī)戰(zhàn)役總攻的序幕。

  長(zhǎng)沙北郊的湘江之畔,有一片群山環(huán)抱的洼地,山上草木郁郁蔥蔥,山下坐落著一棟三層小樓。這是長(zhǎng)沙市抗洪指揮部所在地。由于汛期未至,這里鳥兒啁啾,人跡稀少,煞是幽靜。

  楊燦群和他的突擊隊(duì),把這里當(dāng)作攻堅(jiān)的戰(zhàn)場(chǎng)。他們整天貓?jiān)谛抢?,心里只想一件事,就是想方設(shè)法調(diào)動(dòng)GPU這群“和尚”的積極性,讓他們多“挑水”,爭(zhēng)取“1+1”盡量接近“2”。眼睛也只盯著一個(gè)地方——顯示屏,從那些不停滾動(dòng)的浩如煙海的數(shù)據(jù)中,尋找一個(gè)個(gè)稍縱即逝的靈感,捕捉一次次優(yōu)化GPU計(jì)算效能的機(jī)遇,然后對(duì)計(jì)算程序進(jìn)行一遍又一遍的修改。

  那周,楊燦群與伙伴們和往常一樣,從早上7點(diǎn)盯到午夜,從周一盯到周五,竟然沒有發(fā)現(xiàn)一次戰(zhàn)機(jī),沒有取得任何戰(zhàn)果。

  連續(xù)鏖戰(zhàn)數(shù)日,早已筋疲力盡的楊燦群,躺在床上輾轉(zhuǎn)反側(cè),難以入眠。他于心不甘。往常從周一到周五,都能找到性能優(yōu)化突破口,可在周末時(shí)間研究?jī)?yōu)化方法。那些數(shù)據(jù)猶如一群蜜蜂,在眼前不停地竄來竄去。閉上眼睛,滿腦子還是那些波濤般滾動(dòng)的數(shù)據(jù)。

  突然,他隱隱覺得眼簾上滾動(dòng)的一些數(shù)據(jù)低于設(shè)計(jì)目標(biāo)。他一骨碌從床上爬起來,從家里跑到辦公室,打開與服務(wù)器相連的筆記本電腦,進(jìn)入試驗(yàn)數(shù)據(jù)庫(kù),果然發(fā)現(xiàn)GPU一部分計(jì)算資源沒有用起來。興奮難抑的楊燦群,立刻著手程序優(yōu)化,GPU計(jì)算性能又一次提升。當(dāng)他改完程序起身打開房門時(shí),只見太陽早已爬上山頂,露出了燦爛的笑臉,小鳥在樹林里歡快舞蹈、清脆鳴唱。

  類似這樣的優(yōu)化改進(jìn),他們?cè)趦蓚€(gè)月里進(jìn)行了一萬多次,終于把GPU計(jì)算效能提升到58%。

  這充分驗(yàn)證CPU+GPU異構(gòu)融合技術(shù)是科學(xué)可行的!

  楊燦群帶領(lǐng)突擊隊(duì)乘勝擴(kuò)大戰(zhàn)果,不分晝夜反復(fù)測(cè)試、研討、改進(jìn)。雖然每一次提升都如同滴水般微小,但把它們匯集起來,就能創(chuàng)造科學(xué)奇跡。在連續(xù)奮戰(zhàn)四個(gè)月,先后改進(jìn)優(yōu)化8萬余次之后GPU計(jì)算效能躍升至70%以上,達(dá)到世界最高水平!

 

  全線出擊

 

  美國(guó)計(jì)算機(jī)天才西摩·克雷說:“可以造出一個(gè)速度快的CPU,卻很難造出一個(gè)速度快的系統(tǒng)。”

  “世界巨型機(jī)之父”這句名言,在中國(guó)第一臺(tái)每秒千萬億次超級(jí)計(jì)算機(jī)研制中再一次應(yīng)驗(yàn)了。

  2009年7月,他們按照CPU+GPU體系結(jié)構(gòu)技術(shù)構(gòu)建了幾個(gè)機(jī)柜的系統(tǒng),結(jié)果試運(yùn)行時(shí)發(fā)現(xiàn),系統(tǒng)穩(wěn)定運(yùn)行時(shí)間很難超過半個(gè)小時(shí)。這是為什么?

  通過初步分析,大家認(rèn)為問題還是出在GPU身上。GPU用于科學(xué)計(jì)算,除了計(jì)算效率問題外,還有一個(gè)相關(guān)技術(shù)非常重要,那就是GPU的穩(wěn)定性。GPU用于圖形處理,其計(jì)算負(fù)載與通用計(jì)算存在較大差異。尤其是GPU實(shí)際性能發(fā)揮出來后,各部件進(jìn)入重負(fù)載狀態(tài),功耗提高,散熱要求高,各器件的穩(wěn)定性下降。當(dāng)系統(tǒng)中使用的GPU數(shù)量多了,系統(tǒng)平均無故障時(shí)間也會(huì)隨之下降。

  這個(gè)問題不解決,CPU+GPU異構(gòu)融合之路同樣是條“死胡同”。

  提高GPU工作穩(wěn)定性問題,再次成為楊燦群和他的突擊隊(duì)亟待解開的新“謎語”。

  他們首先使用篩選法對(duì)眾多GPU逐一進(jìn)行壓力測(cè)試,找出那些運(yùn)行穩(wěn)定的GPU。結(jié)果不理想,系統(tǒng)穩(wěn)定性雖然有所提高,但與系統(tǒng)穩(wěn)定性要求相去甚遠(yuǎn)。

  他們仿佛陷入了迷魂陣,四周迷霧茫茫,不知方向在哪里、出路在哪里。但他們始終堅(jiān)信,黑夜再漫長(zhǎng),曙光總會(huì)出現(xiàn)。

  在艱苦探索中,“八一”節(jié)到了,單位組織會(huì)餐。楊燦群對(duì)戰(zhàn)友們說:“走,喝兩杯去,醒醒腦。”但到了餐桌上,到底喝了什么酒、吃了哪些菜,并沒留下什么印象。因?yàn)樵诔燥埡染茣r(shí),他們腦袋里依然轉(zhuǎn)的是GPU工作穩(wěn)定性問題。幾個(gè)人一放下碗筷又直接回到機(jī)房,一頭扎進(jìn)浩如煙海的GPU技術(shù)資料里,苦苦尋找破解迷霧的那一縷曙光。又是連續(xù)幾天吃住在機(jī)房……

  8月4日上午,網(wǎng)上一個(gè)曾瀏覽過的有關(guān)GPU超頻提高性能的帖子突然浮現(xiàn)在楊燦群腦海。帖子上說,GPU超頻可以提高性能,但會(huì)導(dǎo)致GPU運(yùn)行不穩(wěn)定,甚至系統(tǒng)黑屏。

  楊燦群突發(fā)奇想,按照逆向思維,如果選用的GPU具有調(diào)頻功能,讓GPU降頻不就可以提高它的穩(wěn)定性嗎?

  天隨人意,拿過使用的那款GPU一看,恰恰具備調(diào)頻功能。大家趕緊對(duì)它進(jìn)行降頻處理。結(jié)果GPU穩(wěn)定性問題終于迎刃而解。

  GPU計(jì)算效能、穩(wěn)定性關(guān)鍵技術(shù)探索艱難曲折,其他關(guān)鍵技術(shù)攻堅(jiān)也跌宕起伏、步步驚心。

  超級(jí)計(jì)算機(jī)系統(tǒng)要實(shí)現(xiàn)每秒運(yùn)算千億次,不僅要求CPU、GPU“算得快”,而且要求有一個(gè)快捷通暢的網(wǎng)絡(luò)系統(tǒng),讓各種信息“跑得快”。

  2008年10月,蘇金樹帶領(lǐng)大伙受領(lǐng)的某新型交換機(jī)項(xiàng)目,是每秒千萬億次超級(jí)計(jì)算機(jī)通信網(wǎng)絡(luò)的“立交橋”,直接決定著網(wǎng)絡(luò)通信速度。通過深入調(diào)研、嚴(yán)密論證,他們提出正交系統(tǒng)互連方案,使系統(tǒng)結(jié)構(gòu)簡(jiǎn)潔,設(shè)計(jì)難度、制造工藝要求、研制和生產(chǎn)成本大幅降低。

  但通過互聯(lián)網(wǎng)將正交互連方案和芯片制造商美國(guó)技術(shù)工程師交流后,遭到堅(jiān)決反對(duì),對(duì)方在三封郵件和四次電話會(huì)議中反復(fù)強(qiáng)調(diào):

  一、他們也研究過正交互連,也進(jìn)行過正交互連結(jié)構(gòu)條件下的仿真、實(shí)驗(yàn)和測(cè)試,結(jié)論是:信號(hào)傳輸損耗大,阻抗不連續(xù),不能滿足該型交換機(jī)信號(hào)傳輸要求。

  二、該型交換機(jī)設(shè)計(jì)非常困難,他們用了兩年多時(shí)間才完成,沒有他們的技術(shù)支持,不可能成功。

  三、如果堅(jiān)持正交互連方案,他們將不給予正確的技術(shù)支持。

  四、如果堅(jiān)持正交互連方案,必以失敗告終。

  研制工作一開始就陷入兩難境地。如果堅(jiān)持走自己的設(shè)計(jì)路線,需要一切從頭探索,創(chuàng)新難度大,風(fēng)險(xiǎn)高;如果改方案,完全按美國(guó)人提供的方案搞,成功有把握,但沒有自己的特色,沒有創(chuàng)新,沒有優(yōu)勢(shì)。

  從來就不迷信和崇拜別人的銀河人堅(jiān)定地選擇了前者。他們堅(jiān)信沒有美國(guó)人的技術(shù)支持,中國(guó)人照樣把新型交換機(jī)搞出來。他們說,20世紀(jì)60年代,蘇聯(lián)撤走專家,中國(guó)照樣搞出了原子彈!90年代,英國(guó)撤走汽車專家,中國(guó)照樣搞出了小汽車。很多事實(shí)已經(jīng)證明,死了“張屠夫”,中國(guó)人照樣不吃“帶毛豬”。

  他們通過兩個(gè)多月夜以繼日的仿真和試驗(yàn),發(fā)現(xiàn)在正交互連條件下,美國(guó)人的試驗(yàn)方案和設(shè)計(jì)規(guī)范,確實(shí)不能滿足某新型交換機(jī)信號(hào)的傳輸要求。但深入研究了信號(hào)完整性方面的相關(guān)理論和技術(shù)及美國(guó)人的設(shè)計(jì)規(guī)范后,終于發(fā)現(xiàn)他們所使用的矩形反焊盤,是導(dǎo)致信號(hào)傳輸損耗大和傳輸阻抗不連續(xù)的主要原因。針對(duì)該薄弱環(huán)節(jié),他們發(fā)明了跑道式和啞鈴式反焊盤,通過三個(gè)多月反復(fù)迭代仿真,得到全面設(shè)計(jì)規(guī)范,關(guān)鍵的眼圖技術(shù)參數(shù)達(dá)到60ps,遠(yuǎn)遠(yuǎn)大于美國(guó)人的35ps。

  僅用10個(gè)月時(shí)間,他們就研制完成新型交換機(jī)。實(shí)測(cè)技術(shù)指標(biāo)大大超過同類系統(tǒng),而成本是同類同規(guī)模產(chǎn)品的80%。

  高速互聯(lián)網(wǎng)上交換芯片、接口芯片測(cè)試,也經(jīng)歷了一番迂回坎坷。

  研制小組經(jīng)過半年多連續(xù)奮戰(zhàn),完成邏輯設(shè)計(jì)和軟硬件模擬時(shí),離芯片最后投片期限只有3天了。

  大家把最后版本的邏輯設(shè)計(jì)都綜合在FPGA測(cè)試軟件中,準(zhǔn)備進(jìn)行最后完全測(cè)試。這也是研制工作關(guān)鍵點(diǎn)之一,如果通過了,那就萬事大吉;如果卡了殼,那就前功盡棄。

  測(cè)試程序啟動(dòng)后,大伙都把眼睛睜得圓圓的,緊緊盯著屏幕。突然,那些歡快滾動(dòng)的數(shù)據(jù)一下撞到墻上似的,一動(dòng)不動(dòng)了。

  大伙心里一沉,這是怎么回事?

  趕緊檢查外圍,發(fā)現(xiàn)光纖好好的。

  檢查服務(wù)器,服務(wù)器也活著。

  查看交換機(jī),交換機(jī)也有電。

  又查以太網(wǎng),也是工作正常。

  最后,大家抱著試試看的想法,讓它從頭開始運(yùn)行。那些數(shù)據(jù)又開始滾動(dòng)起來,可幾分鐘后,又故態(tài)重萌,躺著不動(dòng)了。

  死鎖!大家一下子都急出一頭冷汗。要解開這把死鎖,首先必須查明它“死”在哪里。

  查因的突破口首先選在測(cè)試試題與測(cè)試模式結(jié)合部。負(fù)責(zé)測(cè)試操作的劉路和設(shè)計(jì)測(cè)試題的謝閔,由于年輕氣盛,加之急火攻心,兩人一碰頭便“吵”了起來。

  謝閔正忙著測(cè)試另一個(gè)驅(qū)動(dòng)程序,劈頭便問劉路:“我那邊正忙呢,你叫我干什么?”

  劉路說:“把所有測(cè)試題都加進(jìn)去跑,運(yùn)行一會(huì)兒就死鎖了,會(huì)不會(huì)是你編的測(cè)試題不能一起跑?”

  謝閔說:“不可能,單個(gè)題能跑,混合在一起跑不會(huì)有影響。”

  劉路說:“那不一定吧,單個(gè)跑和混在一起跑,能一樣嗎?”

  謝閔說:“你放心,我所有的題都內(nèi)部做了流控,絕不會(huì)出現(xiàn)相互擁擠現(xiàn)象。”

  劉路說:“別的題單獨(dú)跑沒問題,說明硬件沒問題。偏偏跑你的題死鎖,不是你的題有問題,是什么?”

  謝閔說“我還懷疑你們的測(cè)試模式有問題呢!”

  沉默一陣,兩人幾乎同時(shí)朝對(duì)方擺擺手說:“咱們?cè)贍?zhēng)是浪費(fèi)時(shí)間。”兩人商定按老規(guī)矩,都去自查原因,自證清白,再合作解決。

  研究室領(lǐng)導(dǎo)帶著大家忙了一個(gè)晝夜,結(jié)果卻發(fā)現(xiàn)測(cè)試題和測(cè)試模式都沒問題。

  難道是接口芯片出問題了?大家將所有接口芯片統(tǒng)計(jì)計(jì)數(shù)器的值讀出,結(jié)果四個(gè)接口芯片流出的數(shù)據(jù)包的個(gè)數(shù)恰好等于四個(gè)接口芯片流入的數(shù)據(jù)包的個(gè)數(shù),這說明正常呀。

  他們不得不把懷疑的目光移向交換芯片。要是在這最后時(shí)刻發(fā)現(xiàn)它有問題,后果不堪設(shè)想呀。就在大家都懸著一顆心,緊鑼密鼓苦讀代碼時(shí),卻意外地從測(cè)試用的FPGA版本上發(fā)現(xiàn)了疑點(diǎn)。

  把FPGA版本進(jìn)行更新再運(yùn)行時(shí),那些數(shù)據(jù)終于又快樂地跳躍起來。兩種芯片都按時(shí)一次投片成功。

  大伙擦去額頭上的汗珠,輕松地吁了口氣:“要是再查不出原因,耽誤了投片,拖了工程后腿,我們可沒法向黨和人民交代呀。”

  在大家艱難曲折、鍥而不舍的攻堅(jiān)中,各項(xiàng)關(guān)鍵技術(shù)相繼突破。

  銀河麒麟操作系統(tǒng)?;A(chǔ)軟件創(chuàng)新團(tuán)隊(duì)針對(duì)每秒千萬億次超級(jí)計(jì)算機(jī)需求,在麒麟操作系統(tǒng)基礎(chǔ)上改造升級(jí),研制出支持異構(gòu)融合體系結(jié)構(gòu)、突破64位多核多線微處理器體系結(jié)構(gòu)與SoC架構(gòu)支持、支持基于高階路由的高速互聯(lián)通信、提供多級(jí)并行編譯優(yōu)化支持和高性能虛擬計(jì)算域管理能力、基于軟硬一體的低功耗控制技術(shù)實(shí)現(xiàn)了一體化能耗管理框架的銀河麒麟操作系統(tǒng)。它是純粹的“中國(guó)制造”,是國(guó)內(nèi)安全級(jí)別最高的操作系統(tǒng)。

  基于高階路由的高速互聯(lián)通信。突破了片上高階網(wǎng)絡(luò)體系結(jié)構(gòu)技術(shù),自主設(shè)計(jì)了高效通信協(xié)議、高階瓦片式(Tile)片上交換網(wǎng)絡(luò)和高密度片間互聯(lián)網(wǎng)絡(luò),使鏈路雙向通信帶寬達(dá)到160Gbps、單背板交換密度達(dá)到61.44Tbps,分別為當(dāng)時(shí)國(guó)際主流商用互連IB QDR的2倍和2.37倍。

  多級(jí)并行編譯優(yōu)化。設(shè)計(jì)了優(yōu)化資源利用的多核多線調(diào)度機(jī)制、多級(jí)并行動(dòng)態(tài)負(fù)載平衡算法、全程序過程間分析等編譯算法,高效支撐JASMIN編程框架,實(shí)現(xiàn)易用高效的應(yīng)用編程與運(yùn)行。

  高性能虛擬計(jì)算域。突破了高效用戶容器技術(shù)、負(fù)載均衡技術(shù)和虛擬化網(wǎng)絡(luò)終端技術(shù),創(chuàng)新地在高性能計(jì)算機(jī)系統(tǒng)中實(shí)現(xiàn)了安全隔離和可定制用戶環(huán)境功能,有效提升了安全性和易用性。

  軟硬一體的低功耗控制。設(shè)計(jì)了一體化能耗管理框架,通過監(jiān)控系統(tǒng)自反饋冷卻調(diào)節(jié)、處理器調(diào)頻調(diào)壓和自適應(yīng)結(jié)點(diǎn)能耗狀態(tài)轉(zhuǎn)換等方法,有效降低了系統(tǒng)運(yùn)行功耗。

  ……

  2009年國(guó)慶節(jié)來臨前夕,每秒千萬億次超級(jí)計(jì)算機(jī)一期系統(tǒng)安裝完畢。這時(shí),從芯片市場(chǎng)傳來一個(gè)喜訊,一款性能更高的新款GPU上市了!這對(duì)于正與世界強(qiáng)國(guó)決戰(zhàn)的銀河人來說,就像在國(guó)際足球賽中的前鋒面前突然出現(xiàn)了空門,讓大家興奮到狂喜。

  但這“臨門一腳”并不好踢:一是離任務(wù)節(jié)點(diǎn)只有一個(gè)月了,而更換GPU必須先拆再裝,整個(gè)系統(tǒng)有2560多個(gè)節(jié)點(diǎn),團(tuán)隊(duì)完成更換GPU的工作通常需要半個(gè)月左右。而且更換了新GPU之后,就必須對(duì)原先的軟件優(yōu)化措施加以改進(jìn),能按時(shí)完成任務(wù)嗎?

  總師楊學(xué)軍把一線攻關(guān)團(tuán)隊(duì)集合起來,大聲問大家:“這新款GPU,我們上不上?”

  大家異口同聲:“上!上!上!”

  “按時(shí)完成黨和國(guó)家交給我們的任務(wù),有沒有信心!”

  “保證完成任務(wù)!”

  國(guó)慶節(jié)來臨了,最后的突擊開始了。測(cè)試篩選、拆卸安裝GPU,是個(gè)體力活。團(tuán)隊(duì)全體人員,男女老少齊上陣,三天三夜,誰也沒合過一下眼,終于完成數(shù)以千計(jì)的GPU更換工作。

  任務(wù)完成后,楊學(xué)軍再次把大家集合起來,看著大家一雙雙貼滿創(chuàng)可貼的手,熬得通紅通紅的一雙雙眼睛,他的眼睛也紅了。

  2010年11月18日,國(guó)際超級(jí)計(jì)算大會(huì)在美國(guó)西部城市波特蘭舉行,國(guó)際TOP500在大會(huì)上發(fā)布第34屆國(guó)際500強(qiáng)排行榜時(shí),立刻引起一片驚嘆。

  此屆榜單,爆出兩大新聞。一是被稱為超級(jí)計(jì)算“老祖宗”的美國(guó)Cray公司,終于憑借峰值速度達(dá)每秒2331萬億次、實(shí)測(cè)性能達(dá)每秒1759萬億次的“美洲虎”,取代了長(zhǎng)期霸居榜首的IBM公司,一舉拔得頭籌。二是“天河一號(hào)”奪得世界第五,不僅是中國(guó)機(jī)器在TOP500排名中的最好成績(jī),而且名次較此前實(shí)現(xiàn)了大幅飆升。

  “天河一號(hào)”總師楊學(xué)軍收到大洋彼岸打來的報(bào)喜電話,只是淡淡一笑,輕輕“哦”了一聲,便放下了手機(jī)。自從加入銀河人行列,尤其是接過銀河事業(yè)帥旗以來,他帶領(lǐng)大伙在超級(jí)計(jì)算機(jī)前沿陣地沖鋒陷陣,屢克難關(guān),碩果累累,曾獲得國(guó)防科技進(jìn)步特等獎(jiǎng)、一等獎(jiǎng),國(guó)家教學(xué)成果一等獎(jiǎng),國(guó)家技術(shù)發(fā)明二等獎(jiǎng),軍隊(duì)專業(yè)技術(shù)重大貢獻(xiàn)獎(jiǎng),國(guó)家杰出青年科學(xué)基金、創(chuàng)新研究群體科學(xué)基金,榮立一等功。每次得知喜訊,或收到獎(jiǎng)狀、獎(jiǎng)?wù)?,他都是這般一笑而過。在他腦海里,完成一個(gè)項(xiàng)目、攻克一個(gè)難題、取得一個(gè)成果,無論影響有多大,都像他母親所說的“又做了一件事情”而已。

  要說得到喜訊,與過去有什么不同,就是他忽然感覺非常疲倦。自從“天河一號(hào)”工程啟動(dòng)后,身為工程總設(shè)計(jì)師,他既要處理行政事務(wù),又要謀劃工程進(jìn)展,還要深入科研一線指導(dǎo)攻關(guān),整天腦子繃得像根弦、身子忙得似飛轉(zhuǎn)的陀螺,根本感覺不到疲勞,甚至不知什么是饑餓。

  他往床上一倒,便進(jìn)入甜蜜的夢(mèng)鄉(xiāng)。睜開眼睛時(shí),他看到玻璃窗上映著一方金色陽光,一只小鳥站在窗外的枝頭上“啾啾”歡叫。

  他揉了揉眼睛,問在大廳里忙碌的妻子:“玉華,幾點(diǎn)了?”

  妻子說:“快八點(diǎn)了。”

  “今天幾號(hào)?”

  “20號(hào),你足足睡了兩天呢。”

  楊學(xué)軍愜意地舒展一下胳膊,吃過妻子備好的早點(diǎn),然后來到銀河廣場(chǎng),像往常那樣點(diǎn)上一支煙,一邊漫步,一邊任思緒隨那裊裊煙霧飄向廣袤的天空。

  作為一名長(zhǎng)年在超級(jí)計(jì)算機(jī)前沿陣地上征戰(zhàn)的老將,他深知我們國(guó)家目前的快速發(fā)展,非常需要堅(jiān)實(shí)的科技支撐,而我國(guó)超級(jí)計(jì)算機(jī)研制水平,與發(fā)達(dá)國(guó)家相比,不僅不能同日而語,其應(yīng)用意識(shí)、應(yīng)用水平更是相去甚遠(yuǎn)。在高性能計(jì)算這個(gè)充滿火藥味的競(jìng)爭(zhēng)領(lǐng)域里,稍有懈怠,就會(huì)被別人趕超甚至被淘汰。所以,“天河一號(hào)”研制成功,對(duì)于他來說,和過去攻克的每一個(gè)科技“堡壘”一樣,只不過是一個(gè)逗號(hào),而逗號(hào)的后邊,還有無數(shù)個(gè)問號(hào),在等著他帶領(lǐng)團(tuán)隊(duì)去求索、去破解。

  傍晚,“天河一號(hào)”工程總師楊學(xué)軍, “天河一號(hào)”工程總指揮廖湘科,計(jì)算機(jī)學(xué)院政委周建設(shè),一起來到學(xué)校辦公大樓前廣場(chǎng)上散步。

  楊學(xué)軍說:“黨中央提出建設(shè)創(chuàng)新型國(guó)家、建設(shè)信息化人民軍隊(duì)宏偉目標(biāo),學(xué)校作為強(qiáng)軍興國(guó)先鋒,任重道遠(yuǎn)啊。”

  廖湘科說:“據(jù)參加國(guó)際TOP500頒獎(jiǎng)典禮的同志通報(bào)說,雖然我們的排名名次提升很快,但與發(fā)達(dá)國(guó)家相比,我們還存在較大差距,在整個(gè)500強(qiáng)中,美國(guó)就占了277套系統(tǒng),而我們只有21套系統(tǒng)。國(guó)家已經(jīng)制定超級(jí)計(jì)算機(jī)整體趕超計(jì)劃,我們作為計(jì)算機(jī)技術(shù)創(chuàng)新國(guó)家隊(duì),一定要多發(fā)揮作用、發(fā)揮大作用。”

  楊學(xué)軍說:“雖然獲得了亞洲第一,但我們的目光絕不能只盯著亞洲,而是要放眼世界。”

  周建設(shè)說:“搶占高峰,超越世界,是我們一代代銀河人追逐了幾十年的夢(mèng)想。大家聽到我們的機(jī)器躋身世界前五的消息后,都非常振奮,心里都憋著一股子勁,都渴望著在‘天河一號(hào)’二期工程中,乘勝?zèng)_擊超級(jí)計(jì)算機(jī)珠穆朗瑪峰。”

  楊學(xué)軍說:“‘天河一號(hào)’二期系統(tǒng)不僅要力爭(zhēng)機(jī)器各方面性能全面大幅躍升,并且一定要用上自己研制的CPU,逐步改變微處理器依賴進(jìn)口的局面。”

  “中國(guó)機(jī)器,外國(guó)芯”,是銀河人心頭難言的遺憾、隱隱的痛。

  為讓中國(guó)機(jī)器擁有“中國(guó)芯”,2008年啟動(dòng)“天河一號(hào)”工程時(shí),國(guó)防科技大學(xué)微處理器技術(shù)創(chuàng)新團(tuán)隊(duì)開始研制設(shè)計(jì)“飛騰1000”芯片。

  為讓“飛騰1000”達(dá)到國(guó)際先進(jìn)水平,而且便于推廣應(yīng)用和可持續(xù)發(fā)展,創(chuàng)新團(tuán)隊(duì)順應(yīng)國(guó)際微處理器發(fā)展潮流,選擇兼容生態(tài)系統(tǒng)良好的SPARC指令系統(tǒng),采用多核多線程SOC體系結(jié)構(gòu),片內(nèi)集成了8個(gè)處理器核,每個(gè)核8個(gè)線程,成為國(guó)內(nèi)單芯片線程最多的處理器。此外,還面向超級(jí)計(jì)算機(jī)研制需求,在“飛騰1000”中集成了3路芯片直連接口,支持2—4處理器芯片直接互聯(lián)構(gòu)成多路SMP系統(tǒng);集成4MB共享二級(jí)Cache和4路DDR3存儲(chǔ)控制器(MCU),使數(shù)據(jù)處理和訪存帶寬更好匹配,緩解存儲(chǔ)墻壓力。

  有人把這一研制目標(biāo)形象地概括為“一步登天”。這四個(gè)字,透顯出如虹氣勢(shì),也意味著艱難險(xiǎn)阻。

  研制工作剛展開,DDR3 調(diào)測(cè)試就遇到雙重挑戰(zhàn):一是dimm條上的控制芯片與最新的DDR3規(guī)范有些不兼容,導(dǎo)致多個(gè)rank同時(shí)刷新的命令無法存儲(chǔ),丟失數(shù)據(jù);二是由于芯片規(guī)模大,封裝難度高,芯片到dimm條的時(shí)鐘占空比不理想。大家苦熬幾個(gè)通宵,才找到最佳辦法,選出最優(yōu)方案,圓滿解決問題。

  不久,長(zhǎng)沙遭遇“2008冰雪災(zāi)害”,輸電線路慘遭破壞,城區(qū)管理部門被迫出臺(tái)限電令,禁止使用空調(diào)。室外白雪皚皚,室內(nèi)寒似冰窖。長(zhǎng)期集中攻關(guān)的科研人員,大多患有腰肌勞損,讓寒氣一逼,腰酸背痛,但他們拿被子往腰上一圍,繼續(xù)堅(jiān)持工作。

  天氣暖和了,設(shè)計(jì)工作告一段落??芍瞥蓸悠泛?,又發(fā)現(xiàn)性能不達(dá)標(biāo)。費(fèi)了九年二虎之力,才發(fā)現(xiàn)是合作單位對(duì)頂層困難估計(jì)不足,導(dǎo)致頂層規(guī)劃出現(xiàn)問題。沒辦法,只好推倒重來,重新確定新的物理設(shè)計(jì)方法,大幅提高了產(chǎn)品性能。

  10月份,“秋老虎”走了,但難度最大的“攔路虎”卻跳了出來。由于設(shè)計(jì)規(guī)模巨大,synopsys ICC工具失去作用,Cadence Encounter基本繞線不通。此時(shí),離芯片投片已不足兩個(gè)月。

  大家知道,逾是形勢(shì)緊迫,逾要沉著應(yīng)對(duì)。通過仔細(xì)分析設(shè)計(jì)數(shù)據(jù)、梳理數(shù)據(jù)流向,提出頂層設(shè)計(jì)新方案。該方案雖然需要頂層設(shè)計(jì)及其功耗設(shè)計(jì)、封裝設(shè)計(jì)等一系列工作推倒重來,工作量巨大,但科學(xué)可行,贏得總師組支持和合作單位密切配合。通過20多天緊急突擊,使時(shí)序違反的路徑迅速收斂,最終完全收斂了下來。

  當(dāng)時(shí)光完成一個(gè)輪回,再次跨入深冬季節(jié)時(shí),芯片設(shè)計(jì)進(jìn)入最后時(shí)序檢查階段。就要大伙想經(jīng)歷了無數(shù)不眠之夜,總算走過了千難萬險(xiǎn),終于可以回家美美睡上一覺時(shí),一個(gè)意想不到的問題,又斜刺里殺了出來——設(shè)計(jì)流程在分層延遲計(jì)算和信號(hào)完整性方面存在重大隱患。若不排除,整個(gè)CPU將功虧一簣。

  大家立馬重整旗鼓,對(duì)問題隱患進(jìn)行密集排查“圍剿”,終于找到并成功排除“元兇”,使所有數(shù)據(jù)回歸正常。

  “飛騰1000”通用CPU,按時(shí)完成設(shè)計(jì),并一次性投片成功!

  次日,國(guó)防科技大學(xué)計(jì)算機(jī)學(xué)院超級(jí)計(jì)算機(jī)創(chuàng)新團(tuán)隊(duì)召開“天河一號(hào)”二期系統(tǒng)決戰(zhàn)動(dòng)員會(huì)。大家高舉右手,喊出了銀河前輩鏗鏘的聲音:

  時(shí)間一年,一天不超!

  每秒4700萬億次,一次不少!

  一定要部分使用國(guó)產(chǎn)飛騰CPU!

  “上甘嶺戰(zhàn)役”

  很多同行專家聽了他們的決心,既深表欽佩,也為之擔(dān)心:“在一年時(shí)間里,機(jī)器性能提升近3倍,除非奇跡發(fā)生。”

  從一期系統(tǒng)的每秒1206萬億次,到二期系統(tǒng)的每秒4700萬億次,并不是數(shù)字的簡(jiǎn)單拓展。運(yùn)算峰值提升近三倍,而機(jī)柜數(shù)量卻只能增加四分之一左右,意味著一組同樣大小的機(jī)柜,二期系統(tǒng)的性能要比一期系統(tǒng)提升兩倍多,這給研制工作提出了一系列挑戰(zhàn),需要跨越多核多線程體系結(jié)構(gòu)與片上并行系統(tǒng)設(shè)計(jì)技術(shù)、編譯系統(tǒng)全程序過程間分析等編譯優(yōu)化、自主高效的通信協(xié)議、高階路由器體系結(jié)構(gòu)、超大規(guī)模集成電路設(shè)計(jì)與高速率高密度交換機(jī)的設(shè)計(jì)等一系列技術(shù)難題。這些技術(shù)障礙,哪一個(gè)都不是小溝小坎,全是深澗巨壑。

  大伙頗有深意地說:“‘天河一號(hào)’二期系統(tǒng)攻堅(jiān),是一場(chǎng)‘上甘嶺戰(zhàn)役’。”

  參與工程任務(wù)的科研人員,就像當(dāng)年在上甘嶺上與美帝國(guó)主義侵略者決戰(zhàn)的將士。為了國(guó)家榮譽(yù)、民族尊嚴(yán),以連續(xù)作戰(zhàn)的作風(fēng),頑強(qiáng)拼搏的意志,“舍身炸碉堡”的勇氣,向著科學(xué)巔峰躬身沖刺!

  通信光纖鋪設(shè),是“天河一號(hào)”二期系統(tǒng)進(jìn)駐國(guó)家超算天津中心的首期工程,時(shí)間緊迫、任務(wù)艱巨。為確保按期完成施工任務(wù),指揮員把任務(wù)細(xì)化到天,要求大家“當(dāng)天任務(wù)不完成當(dāng)天不吃不睡”。

  哪知施工第一天,剛鋪了幾根光纖,施工指揮員拿起一看,立刻傻眼了:光纖的絕緣膠皮被磨出了道道裂痕,個(gè)別地方還露出線芯。

  原來地溝的水泥表層太粗糙,加之時(shí)值盛夏,地溝溫度高達(dá)40多度,把光纖絕緣層烤得似細(xì)皮嫩肉,哪經(jīng)得起水泥地的摧殘。

  這個(gè)問題不解決,后果不堪設(shè)想。輕則信號(hào)中斷、通信短路,重則導(dǎo)致系統(tǒng)紊亂。

  如何避免光纖絕緣層受損?

  大家絞盡腦汁,也沒想出個(gè)法子來。急得指揮員抓耳撓腮,一屁股坐在地上:“嗨!這可怎么辦?”

  時(shí)間,在嘀嘀嗒嗒一秒秒過去。大伙討論了兩個(gè)小時(shí),還是沒招。

  指揮員抹了一把臉上的汗水,舉著手掌愣了愣,然后一拍大腿說:“有辦法了!”

  只見他把襯衣、褲子一脫,跳進(jìn)悶熱的地溝,俯臥在粗糙的水泥地上。

  大家一看,立刻明白了指揮員的意思,不用誰下令,紛紛脫下身上的衣褲,跟著跳進(jìn)地溝,鋪設(shè)了一條光滑的人肉地毯。

  一根根光纖順著官兵光滑的皮肉通暢地向前延伸。滾燙的水泥地灼烤著官兵的血肉之軀,大家一身汗水、滿身污垢。

  背上被磨得通紅,官兵們咬牙堅(jiān)持;

  皮肉被磨破了,他們依然一動(dòng)不動(dòng);

  傷口不住地往外滲著血水,還是沒有一人撤退;

  ……

  天津?yàn)I海新區(qū)一名領(lǐng)導(dǎo)看見這一幕,非常感動(dòng)。“戰(zhàn)爭(zhēng)年代,我軍將士為民族獨(dú)立、人民解放,用血肉之軀堵槍眼,炸碉堡。和平時(shí)期,人民子弟兵,跳進(jìn)洪流堵潰堤,冒著地震救災(zāi)民。今天,我又看見我軍科研人員,為保護(hù)科研器材,赤身裸背臥地溝,流汗淌血不后退。人民軍隊(duì)的光榮傳統(tǒng),在你們身上沒有丟!我們國(guó)家有這樣科研隊(duì)伍,再艱難的工程也能拿下!”

  一個(gè)月,他們幾十個(gè)人,在粗糙悶熱的地溝里赤身裸背爬了30天。一個(gè)個(gè)被堅(jiān)硬的水泥地和光纖刮擦得遍體鱗傷。但15000根光纖毫發(fā)無損!

  “天河一號(hào)”二期系統(tǒng)試機(jī)那天,一打開機(jī)器,全部通信線路暢通無阻。國(guó)家超算天津中心領(lǐng)導(dǎo),特意來到擔(dān)負(fù)光纖鋪設(shè)任務(wù)的官兵中間,一一察看他們背上那些尚未痊愈的傷口,動(dòng)情地說:“‘天河一號(hào)’二期系統(tǒng)首試暢通,有你們的貢獻(xiàn)!功勞簿上,有大家的名字!”

  楊燦群帶領(lǐng)計(jì)算效能提升團(tuán)隊(duì)在國(guó)家超算天津中心天河機(jī)房擺開了戰(zhàn)場(chǎng)。他們的第一個(gè)任務(wù),就是確保系統(tǒng)所有部件連續(xù)穩(wěn)定運(yùn)行4小時(shí)以上。哪知一開機(jī),系統(tǒng)又出問題了。

  他們到天津前,就在長(zhǎng)沙做了四個(gè)機(jī)柜的驗(yàn)證系統(tǒng),進(jìn)行了穩(wěn)定性調(diào)試,沒有發(fā)現(xiàn)任何問題。天津系統(tǒng)所使用的部件與長(zhǎng)沙系統(tǒng)完全一樣,為什么就出問題了呢?

  楊燦群抬頭望一眼天河機(jī)房,有種一眼望不到頭的感覺。并排矗立的140組機(jī)柜,其中包含了數(shù)以萬計(jì)的部件,只要其中一個(gè)部件、一個(gè)系統(tǒng)出問題,都會(huì)影響系統(tǒng)的穩(wěn)定性。這個(gè)問題部件、系統(tǒng)在哪呢?楊燦群和大伙仿佛一腳踏進(jìn)一個(gè)深坑,眼前一片漆黑。

  在黑暗中探索好幾天,他們才發(fā)現(xiàn)問題竟然出在水冷系統(tǒng)上:由于水量不足,散熱功能下降,造成超級(jí)計(jì)算機(jī)系統(tǒng)溫度過高。

  隨著系統(tǒng)調(diào)試全面展開,他們又發(fā)現(xiàn)GPU也存在抽風(fēng)似的波動(dòng)現(xiàn)象。大伙通過對(duì)GPU穩(wěn)定性相關(guān)因素,如GPU自身、GPU的供電模塊、GPU與主機(jī)的通信接口卡、GPU散熱等,一一進(jìn)行大量采樣分析,沒有發(fā)現(xiàn)任何蛛絲馬跡。他們又對(duì)GPU工作狀態(tài)溫度進(jìn)行監(jiān)控,通過大量數(shù)據(jù)采樣分析后,發(fā)現(xiàn)同一個(gè)刀片上的兩顆GPU的工作溫度有明顯差異。通過發(fā)明風(fēng)量“挖補(bǔ)”技術(shù),終于徹底解決了散熱不均勻問題,實(shí)現(xiàn)了GPU穩(wěn)定工作。

  “天河一號(hào)”二期系統(tǒng)采用自主研制的互聯(lián)網(wǎng)絡(luò)系統(tǒng),是個(gè)全局性的設(shè)備,也是影響系統(tǒng)穩(wěn)定運(yùn)行的關(guān)鍵因素。加之規(guī)模巨大,結(jié)構(gòu)復(fù)雜,不僅測(cè)試難度大,而且一旦出現(xiàn)問題,查因、維修困難,。他們通過與互聯(lián)網(wǎng)絡(luò)系統(tǒng)科研人員密切配合,依據(jù)網(wǎng)絡(luò)特點(diǎn)研究測(cè)試方法,編寫了分組、并發(fā)等多種測(cè)試代碼,高效實(shí)現(xiàn)了網(wǎng)絡(luò)接口、網(wǎng)絡(luò)路徑全覆蓋測(cè)試,實(shí)現(xiàn)了故障快速定位和排除。

  又一個(gè)國(guó)慶佳節(jié)來臨之際,“天河一號(hào)”二期系統(tǒng)終于達(dá)到穩(wěn)定工作目標(biāo)。

  已連續(xù)奮戰(zhàn)兩個(gè)月的楊燦群和戰(zhàn)友們顧不上坐下來喝杯茶、歇歇?dú)?,立刻?duì)系統(tǒng)計(jì)算效能進(jìn)行最后優(yōu)化。他們逐個(gè)測(cè)試系統(tǒng)各個(gè)計(jì)算結(jié)點(diǎn),排除了內(nèi)存故障、GPU故障影響計(jì)算效能問題,使計(jì)算效能提升到每秒1890萬億次。

  初戰(zhàn)告捷,他們趁勢(shì)擴(kuò)大戰(zhàn)果,又對(duì)應(yīng)用軟件進(jìn)行優(yōu)化,使系統(tǒng)性能達(dá)到每秒2339萬億次。

  這已經(jīng)是個(gè)奇跡了。當(dāng)時(shí)世界排名第一的美國(guó)“美洲虎”超級(jí)計(jì)算機(jī),其計(jì)算效能也只有每秒1767萬億次。如果按照國(guó)際TOP500組織以計(jì)算效能排名,“天河一號(hào)”二期系統(tǒng)已將它遠(yuǎn)遠(yuǎn)甩在后邊。

  但楊燦群和同事們還不滿足。他們認(rèn)為“天河一號(hào)”還有潛力可挖。把“美洲虎”甩得越遠(yuǎn),“天河一號(hào)”對(duì)世界第一的沖擊力就越大。

  他們繼續(xù)把自己關(guān)在機(jī)房,發(fā)起最后沖刺。

  10月19日下午,楊燦群到北京辦事。汽車在京津高速公路上奔馳,在通過一個(gè)立交橋時(shí),他看著來自四面八方的車輛匯集在橋上,然后又有序地駛上四面八方,腦袋里突然靈感閃現(xiàn):如果把超級(jí)計(jì)算機(jī)網(wǎng)絡(luò)喻為城市交通樞紐,網(wǎng)絡(luò)路徑就是一條條城市街道,這些街道的交會(huì)點(diǎn),往往成為交通堵塞區(qū),車輛只有合理放行,才能保證交通暢通。

  楊燦群馬上給同事打電話,讓他們關(guān)注網(wǎng)絡(luò)路徑,修改參數(shù),對(duì)超級(jí)計(jì)算機(jī)計(jì)算效能再次優(yōu)化。

  當(dāng)天晚上,“天河一號(hào)”計(jì)算效能再次沖高——每秒2490萬億次。

  次日,奇跡再現(xiàn)——每秒2507萬億次!

  10月30日,“天河一號(hào)”二期系統(tǒng)就要向國(guó)際TOP500組織遞交測(cè)試結(jié)果的前夕,他們?nèi)栽诶^續(xù)優(yōu)化,并再下一城,將系統(tǒng)計(jì)算效能提高到每秒2566億次,計(jì)算效率達(dá)到54.6%,屬于世界最高水平。

  參與工程研制的科學(xué)家們用奮不顧身的沖刺,把一個(gè)個(gè)科學(xué)“高地”踏在腳下:攻克了超級(jí)計(jì)算機(jī)CPU間高速高效互聯(lián)通信這一世界難題,研制成功高階互聯(lián)交換芯片、高性能互連接口芯片;研制成功4類結(jié)點(diǎn)機(jī)、2套網(wǎng)絡(luò)、15種印制電路板;編寫完成操作系統(tǒng)、編譯系統(tǒng)、并行程序開發(fā)環(huán)境與科學(xué)計(jì)算可視化系統(tǒng)。其中,異體融合體系結(jié)構(gòu)、基于高階路由的高速互聯(lián)通信等技術(shù)達(dá)到國(guó)際領(lǐng)先水平。

  他們還在“天河”機(jī)上實(shí)現(xiàn)了“中國(guó)芯”從無到有的突破,在二期系統(tǒng)中安裝了2048顆“飛騰1000”通用CPU。如果用戶要求,可全部實(shí)現(xiàn)國(guó)產(chǎn)化,通過高效互聯(lián)通信,形成完全自主的高性能計(jì)算機(jī)。

  曾幾何時(shí),很多外國(guó)專家在表達(dá)對(duì)中國(guó)計(jì)算機(jī)技術(shù)的鄙視時(shí),總是這樣發(fā)問:“你們中國(guó)的超級(jí)計(jì)算機(jī)有‘中國(guó)芯’嗎?”

  現(xiàn)在,還是讓國(guó)外專家自己來回答吧。

  全球超級(jí)計(jì)算機(jī)500強(qiáng)排行榜主要編撰人之一、美國(guó)田納西大學(xué)計(jì)算機(jī)學(xué)教授唐加納,考察了“天河一號(hào)”二期系統(tǒng)后,發(fā)表評(píng)論說:“雖然‘天河一號(hào)’二期系統(tǒng)的處理器仍主要采用美國(guó)產(chǎn)品,但其互聯(lián)芯片完全是中國(guó)自主制造的,并且中國(guó)已經(jīng)有自己的CPU了?;ヂ?lián)芯片主要涉及處理器之間的信息流動(dòng),對(duì)于超級(jí)計(jì)算機(jī)的整體性能起到關(guān)鍵作用。中國(guó)制造這些互聯(lián)芯片,具有世界最先進(jìn)的水平。”

  唐加拉教授是國(guó)際高性能計(jì)算機(jī)領(lǐng)域的知名專家,他的評(píng)價(jià)是比較客觀的。國(guó)防科技大學(xué)自主研制的高階路由芯片和高速網(wǎng)絡(luò)芯片,其性能是國(guó)際商用芯片的兩倍。“銀河飛騰1000”在“天河一號(hào)”二期系統(tǒng)成功使用,標(biāo)志著中國(guó)信息產(chǎn)業(yè)“空心”歷史開始走向終結(jié)。

  “天河一號(hào)”二期系統(tǒng)較一期系統(tǒng),性能再次大幅躍升:峰值速度每秒4700萬億次和持續(xù)速度每秒2566萬億次,分別提高了2.89倍和3.55倍;計(jì)算效率再次提高近10%。

 

  從巔峰悄悄出發(fā)

 

  僅僅半年后,即2011年6月國(guó)際TOP500發(fā)布新榜單時(shí),日本公司研制并安裝于本國(guó)理化研究所的超級(jí)計(jì)算機(jī)“京”,扶搖直上,取代“天河一號(hào)”占據(jù)了榜首位置。2012年6月、11月,美國(guó)的超級(jí)計(jì)算機(jī)“紅彬”“泰坦”,又先后登上國(guó)際TOP500排名之巔。“天河一號(hào)”排名跌到世界第8。

  這一跌,跌得國(guó)產(chǎn)超級(jí)計(jì)算機(jī)的“粉絲”們好心疼、好心酸、好失望啊。“‘天河一號(hào)’怎么啦?怎么曇花一現(xiàn)就被滾滾大潮淹沒了呢?”

  心懷叵測(cè)者又開始鼓噪:“國(guó)產(chǎn)機(jī)器就這樣,只是個(gè)政治標(biāo)本而已。”

  而這時(shí),天河人卻出奇地冷靜,不驚慌,不解釋,不反駁,更不沮喪。

  對(duì)于日、美的反超,天河人早有預(yù)料。這是人家的優(yōu)勢(shì)領(lǐng)域、戰(zhàn)略領(lǐng)地,是別人耀武揚(yáng)威、傲視世界的地方,豈能容一匹“黑馬”撒蹄狂奔?再說,超越與被超越的角色輪回,仰視與俯視的狀態(tài)更替,既是科技發(fā)展的常態(tài),亦是科技進(jìn)步的動(dòng)力,用不著耿耿于懷,更犯不上驚慌失措。沉默,往往體現(xiàn)的是自信和力量。

  更重要的是,雖然“天河一號(hào)”沖頂成功,掌聲與鮮花讓人感到自豪與欣慰,但天河人從未因此而得意忘形、心浮氣躁。他們深知,世界超算領(lǐng)域的“游戲規(guī)則”并未因“天河一號(hào)”的出現(xiàn)而改變。

  聽聽天河人對(duì)媒體記者說的那些話吧:

  “就整體實(shí)力而言,第一梯隊(duì)仍然是美國(guó)。‘天河一號(hào)’暫時(shí)勝出,只能說明我們已經(jīng)站在第二梯隊(duì)的前列。”

  “在最新TOP500排行榜中,美國(guó)上榜計(jì)算機(jī)230多臺(tái),并且全部由美國(guó)公司自己研制,僅惠普、IBM、克雷三家公司,就制造了500強(qiáng)中的409臺(tái)。IBM公司內(nèi)部員工流傳一句笑話:在超級(jí)計(jì)算機(jī)領(lǐng)域,97%的市場(chǎng)份額來自IBM公司,剩下的3%來自IBM二手機(jī)器。日本上榜的30臺(tái)機(jī)器中,日本制造僅占37%,其余均為美國(guó)制造;中國(guó)上榜76臺(tái),中國(guó)制造只有13%,電信、互聯(lián)網(wǎng)等領(lǐng)域的用戶大多使用惠普、IBM系統(tǒng)。中國(guó)超級(jí)計(jì)算機(jī)總體水平與美國(guó)相比,差距不是一點(diǎn)點(diǎn),而是一大截。”

  “中國(guó)的整體系統(tǒng)已經(jīng)走在世界領(lǐng)先,但就高性能計(jì)算機(jī)完整產(chǎn)業(yè)鏈而言,中國(guó)還有很長(zhǎng)的路要走。”

  “體系結(jié)構(gòu)、互聯(lián)技術(shù)、操作系統(tǒng)、微處理器、應(yīng)用軟件,是超級(jí)計(jì)算機(jī)缺一不可的五大核心要求,前三個(gè)中國(guó)都解決得很好,但后兩個(gè)仍然是短板。”

  “我國(guó)在核心部件與原創(chuàng)技術(shù)上,與國(guó)外先進(jìn)水平差距不小。如CPU的物理設(shè)計(jì)與美國(guó)起碼差一代,工藝起碼差兩代。”

  “應(yīng)用方面也一樣,美國(guó)、日本等超算技術(shù)發(fā)達(dá)國(guó)家,超算與社會(huì)生產(chǎn)發(fā)展實(shí)現(xiàn)深度融合,推動(dòng)了汽車、飛機(jī)、航天、電影等一大批產(chǎn)業(yè)快速發(fā)展。而我國(guó)的超級(jí)機(jī)只在一部分專業(yè)領(lǐng)域得到成功應(yīng)用,應(yīng)用瓶頸尚未完全突破,既影響社會(huì)進(jìn)步,也遲滯了超級(jí)計(jì)算機(jī)的發(fā)展。”

  “人才方面更處于劣勢(shì)。美國(guó)有超過1萬人的超級(jí)計(jì)算機(jī)高級(jí)專業(yè)人才,中國(guó)用高薪也聘不到幾個(gè)人。深圳超算中心開出年薪100萬,還是一才難求。”

  “雖然‘天河一號(hào)’在國(guó)際TOP500奪魁,但西方國(guó)家在信息技術(shù)領(lǐng)域的優(yōu)勢(shì)地位沒有改變,美國(guó)在超級(jí)計(jì)算機(jī)研制和應(yīng)用的主導(dǎo)地位沒有改變,世界強(qiáng)國(guó)爭(zhēng)奪超級(jí)計(jì)算機(jī)領(lǐng)先地位的態(tài)勢(shì)沒有改變。”

  三個(gè)“沒有改變”,既是對(duì)超級(jí)計(jì)算機(jī)領(lǐng)域各國(guó)實(shí)力的準(zhǔn)確概括,也是對(duì)天河人勇奪第一后平靜心態(tài)的生動(dòng)寫照。

  落差蘊(yùn)含能量,距離激發(fā)動(dòng)力。正如中國(guó)科學(xué)院院士、“天河一號(hào)”總設(shè)計(jì)師楊學(xué)軍所說:“從‘天河一號(hào)’問世那天起,‘天河二號(hào)’的攻關(guān)就開始了。在對(duì)國(guó)際高性能計(jì)算發(fā)展趨勢(shì)進(jìn)行分析后,我們瞄準(zhǔn)了每秒億億級(jí)機(jī)器的研制,決心在引領(lǐng)世界超算發(fā)展中作出新的貢獻(xiàn)。”

  “吃著碗里的、看著鍋里的、想著缸里的”,這是銀河人、天河人的傳統(tǒng)思維。

  “與其說給別人聽,不如做給別人看”,這是銀河人、天河人的行為風(fēng)格。

  他們剛剛占領(lǐng)巔峰,又從巔峰悄悄出發(fā),向著新的巔峰進(jìn)擊。

  2011年1月,國(guó)防科技大學(xué)召開“天河工程領(lǐng)導(dǎo)小組會(huì)議”,啟動(dòng)“天河二號(hào)”每秒億億次超級(jí)計(jì)算機(jī)認(rèn)證與預(yù)研工作;計(jì)算機(jī)學(xué)院院長(zhǎng)、“天河一號(hào)”研制總指揮、副總設(shè)計(jì)師廖湘科,擔(dān)任“天河二號(hào)”研制總指揮、總設(shè)計(jì)師。

  3月,國(guó)防科技大學(xué)與廣州市政府開始洽談共建“廣州超級(jí)計(jì)算中心”合作事宜。

  11月,國(guó)防科技大學(xué)“新一代天河超級(jí)計(jì)算機(jī)研制項(xiàng)目”通過國(guó)家科技部組織的專家評(píng)審,并與廣東省、廣州市、中山大學(xué)簽署“省市校共建廣州超級(jí)計(jì)算中心協(xié)議”。“天河二號(hào)”攻關(guān)全面展開。此后,與廣州市簽署“廣州超級(jí)計(jì)算中心‘天河二號(hào)’研制合同”,并確定中心選址于廣州大學(xué)城的中山大學(xué)校區(qū)。

  2012年5月,國(guó)防科技大學(xué)向廣州超算中心提供先導(dǎo)超級(jí)計(jì)算機(jī),支持開展前期業(yè)務(wù)。

  ……

  沉寂兩年半后,“天河”超級(jí)計(jì)算機(jī)雄姿再現(xiàn),王者歸來。于2013年6月在國(guó)際TOP500排名中,重新占領(lǐng)世界超算之巔!

  “天河二號(hào)”峰值速度達(dá)到每秒54.9千萬億次,持續(xù)計(jì)算速度達(dá)到每秒33.86千萬億次,綜合技術(shù)處于國(guó)際領(lǐng)先水平。

  它比此前排名世界第一的美國(guó)“泰坦”超級(jí)計(jì)算機(jī),計(jì)算速度快2倍,計(jì)算密度高2.5倍。

  它與“天河一號(hào)”相比,計(jì)算性能、計(jì)算密度均提升10倍以上,能效比提升2倍,耗電量卻只有“天河一號(hào)”的三分之一。

  若想探索地球氣候變化規(guī)律,“天河一號(hào)”可以模擬2000年前的氣候變遷,“天河二號(hào)”能夠回溯到5000年前。

  進(jìn)行500人規(guī)模的全基因組信息關(guān)聯(lián)性分析,華大轉(zhuǎn)基因用自有計(jì)算機(jī)系統(tǒng)需要一年完成,運(yùn)用“天河二號(hào)”只需要3小時(shí)。

  電影《阿凡達(dá)》動(dòng)漫渲染制作耗時(shí)一年多,若用“天河二號(hào)”,1個(gè)小時(shí)便可完成。

  用傳統(tǒng)方法研發(fā)新型轎車,要經(jīng)過上百次碰撞、歷時(shí)兩年多實(shí)驗(yàn),利用“天河二號(hào)”只需3至5次碰撞、兩個(gè)多月便可實(shí)現(xiàn)。

  “天河二號(hào)”的計(jì)算能力,名富其實(shí)的“超級(jí)”“神算”!

  那些對(duì)“天河”超級(jí)計(jì)算機(jī)說三道四、橫挑鼻子豎挑眼的人,終于暫時(shí)把嘴閉上了。

  現(xiàn)在該輪到科學(xué)家發(fā)聲了。中國(guó)科學(xué)院軟件研究所研究員張?jiān)迫院赖卣f:“體系結(jié)構(gòu)之路上,中國(guó)人在拉著世界走!”

  外國(guó)科學(xué)家也紛紛說出了公道話。

  美國(guó)英特爾公司副總裁雷杰伯·哈茲拉說:“‘天河二號(hào)’的進(jìn)步,不僅對(duì)中國(guó)科學(xué)界、產(chǎn)業(yè)界有利,而且將推動(dòng)數(shù)十年內(nèi)世界超級(jí)計(jì)算機(jī)技術(shù)的發(fā)展水平。這臺(tái)機(jī)器和其他超級(jí)計(jì)算機(jī)為全球日益增長(zhǎng)的大數(shù)據(jù)處理需求提供了基礎(chǔ)設(shè)施。”

  美國(guó)勞倫斯·伯克利國(guó)家實(shí)驗(yàn)室副主任霍斯特·西蒙說:“如果有人覺得中國(guó)人研制超級(jí)計(jì)算機(jī)只是噱頭,‘天河二號(hào)’就可以證明他們錯(cuò)了。”

  沖刺!沖刺!沖刺!

  再次站在世界之巔的天河人,是怎樣一種心情呢?

  慶功宴上,“天河一號(hào)”總設(shè)計(jì)師、國(guó)防科技大學(xué)校長(zhǎng)楊學(xué)軍,計(jì)算機(jī)學(xué)院院長(zhǎng)、“天河二號(hào)”總設(shè)計(jì)師廖湘科,計(jì)算機(jī)學(xué)院政委劉學(xué)明相互敬酒時(shí)說的一番話很有代表性。

  楊學(xué)軍說:“國(guó)防科技大學(xué)從1958年研制成功我國(guó)第一臺(tái)專用數(shù)字電子管計(jì)算機(jī),成為我國(guó)計(jì)算機(jī)科研和人才培養(yǎng)基地后,堅(jiān)持瞄準(zhǔn)世界前沿攻堅(jiān)克難,引領(lǐng)著我國(guó)計(jì)算機(jī)技術(shù)不斷發(fā)展。尤其是1983年研制成功‘銀河—Ⅰ’每秒億次巨型機(jī),實(shí)現(xiàn)了我國(guó)從大型機(jī)到巨型機(jī)的飛躍;1983至1997的14年間,研制‘銀河—Ⅱ’‘銀河—Ⅲ’,推動(dòng)了我國(guó)巨型機(jī)從每秒億次到每秒10億次,再到每秒100億次的跨越,此后10年又相繼研制出每秒萬億次、30萬億次、100萬億次巨型機(jī);在2007至2010不到兩年時(shí)間里,又在世界上率先創(chuàng)造出引領(lǐng)世界潮流的體系結(jié)構(gòu)技術(shù),使我國(guó)超級(jí)計(jì)算機(jī)從每秒百萬億次躍進(jìn)到每秒千萬億次,奪得國(guó)際TOP500排名第一,圓了銀河人、天河人追求數(shù)十年的夢(mèng)想。現(xiàn)在我們?cè)僬凼澜绻鸸?,進(jìn)一步鞏固了國(guó)家在世界超算領(lǐng)域的地位。這一系列跨越說明了什么?說明這是我們的傳統(tǒng)!同時(shí)也是責(zé)任?,F(xiàn)在信息技術(shù)領(lǐng)域發(fā)展神速,我們必須不斷挑戰(zhàn)自我、超越自我,稍有懈怠,就將被世界淘汰!”

  廖湘科說:“再占巔峰,并不是創(chuàng)新的休止符。在研制‘天河一號(hào)’‘天河二號(hào)’時(shí),我們并沒有把十八般武藝都用上,我們的技術(shù)路線還有很大的發(fā)展空間,我們的隊(duì)伍還有很大的創(chuàng)新潛力。我們一定要,也一定能站得更高、走得更遠(yuǎn)!”

  “黨的十八大召開后,習(xí)主席提出的中國(guó)夢(mèng)強(qiáng)軍夢(mèng),讓廣大科技工作者深受鼓舞,大家紛紛表示要為中華崛起貢獻(xiàn)更多智慧、更大力量。”曾參加對(duì)越自衛(wèi)還擊戰(zhàn)的劉學(xué)明說,“科研攻關(guān)就像戰(zhàn)場(chǎng),沖鋒是最好的防守,要想在這個(gè)戰(zhàn)場(chǎng)上立于不敗之地,需要我們沖刺!沖刺!再?zèng)_刺!”

  國(guó)防科技大學(xué)超級(jí)計(jì)算機(jī)創(chuàng)新團(tuán)隊(duì)的確有著爭(zhēng)取更大成績(jī)、創(chuàng)造更大輝煌的實(shí)力。

  “聽到‘天河二號(hào)’再奪國(guó)際TOP500排名第一的消息,我覺得很了不起,但感到不奇怪,相反它不奪第一,我才覺得奇怪。”在國(guó)防科技大學(xué)軍事高科技培訓(xùn)學(xué)院進(jìn)修的一名將軍說,“國(guó)防科技大學(xué)高科技班剛開班那年,我就參加了團(tuán)級(jí)干部培訓(xùn)班,此后我又參加了師、軍職高科技培訓(xùn)班。在國(guó)防科大學(xué)習(xí)生活累計(jì)近一年,我每天早上起來跑步時(shí),都發(fā)現(xiàn)有人進(jìn)出銀河樓、天河樓,一打聽才知道那些從樓里出來的是在實(shí)驗(yàn)室熬了一個(gè)通宵的,那些進(jìn)去的則是提前去實(shí)驗(yàn)室做實(shí)驗(yàn)的。而晚上,這兩棟樓里幾乎每一扇窗戶都亮著燈。春、夏、秋、冬,幾乎天天如此。我還從來沒見干工作這樣玩命的。”

  如果說這位將軍的話中透出的是超級(jí)計(jì)算機(jī)創(chuàng)新團(tuán)隊(duì)的“軟實(shí)力”——奮勇進(jìn)取、頑強(qiáng)拼搏的精神,那么他們的“硬實(shí)力”更為雄厚,那就是得天獨(dú)厚的技術(shù)優(yōu)勢(shì)。

  超級(jí)計(jì)算機(jī)有五個(gè)核心要素:體系結(jié)構(gòu)、互聯(lián)技術(shù)、操作系統(tǒng)、微處理器和應(yīng)用軟件。前三個(gè)要素,用天河人的話來說“這是我們的‘絕活’”。

  “天河一號(hào)”采用的CPU+GPU異構(gòu)融合體系結(jié)構(gòu),是一項(xiàng)對(duì)傳統(tǒng)技術(shù)路線有著顛覆性創(chuàng)新意義的總體結(jié)構(gòu)技術(shù),有著低能耗、低成本、高集成度等優(yōu)點(diǎn),因而很快成為國(guó)際主流。在此基礎(chǔ)上,天河團(tuán)隊(duì)大膽創(chuàng)新,為“天河二號(hào)”設(shè)計(jì)出新型異構(gòu)多態(tài)體系結(jié)構(gòu),大大提升了系統(tǒng)計(jì)算速度,并將其應(yīng)用從科學(xué)計(jì)算拓展到大數(shù)據(jù)處理、大規(guī)模信息服務(wù)等領(lǐng)域。

  隨著超級(jí)計(jì)算機(jī)系統(tǒng)越來越復(fù)雜、規(guī)模越來越大,互聯(lián)技術(shù)的作用越來越大,甚至不亞于CPU。“天河二號(hào)”高速互聯(lián)系統(tǒng)性能,是當(dāng)前國(guó)際商用互聯(lián)系統(tǒng)的兩倍。它可以把幾萬顆微處理器聯(lián)系起來,共同解決一個(gè)計(jì)算問題,解決了高效互聯(lián)中“微處理器越多效能越低”的世界難題。他們自主研制了互聯(lián)通信系統(tǒng)最核心的兩塊芯片:路由器和網(wǎng)絡(luò)接口。一臺(tái)超級(jí)計(jì)算機(jī)系統(tǒng)好比一個(gè)大城市,互聯(lián)通信系統(tǒng)就是城市的公路網(wǎng),路由器就是立交橋,網(wǎng)絡(luò)接口就是主干道出入口。一個(gè)城市公路網(wǎng)市政設(shè)施建設(shè)得再好,立交橋和主干道出入口不設(shè)計(jì)好,城市交通依然擁擠不堪。他們?cè)谠O(shè)計(jì)這兩塊芯片時(shí),應(yīng)用多種創(chuàng)新技術(shù),實(shí)現(xiàn)了數(shù)據(jù)交換高效快捷。

  正如杰克·唐加拉教授在回答記者“什么使中國(guó)超級(jí)計(jì)算機(jī)如此神速”這一問題時(shí)說:“中國(guó)自主研發(fā)了內(nèi)部互聯(lián)技術(shù),這是買不來的。這是他們基于芯片、路由器及自主生產(chǎn)的交換器開發(fā)出來的。這跟Cray公司情況相似,Cray公司的貢獻(xiàn)除了集成以及軟件以外,還貢獻(xiàn)了內(nèi)部互聯(lián)技術(shù)。他們運(yùn)用無限帶寬技術(shù)的內(nèi)部互聯(lián),將兩倍于內(nèi)部互聯(lián)帶寬的東西整合在一起。”

  “天河”使用的操作系統(tǒng)也很有特色。它在大多數(shù)中國(guó)超級(jí)計(jì)算機(jī)使用外國(guó)操作系統(tǒng)的情況下,采用自主研發(fā)、以高安全性著稱的“銀河麒麟”操作系統(tǒng)。該操作系統(tǒng),使“天河”的每一名用戶像到銀行租了個(gè)保險(xiǎn)箱一樣,鑰匙和密碼都握在自己手上。其中的信息,其他用戶甚至連管理員都看不到。一句話:“中國(guó)人自己研制的操作系統(tǒng),中國(guó)人放心用。”

  超級(jí)計(jì)算機(jī)后兩個(gè)核心要素——CPU與應(yīng)用軟件,也正在迎頭趕上。

  讓中國(guó)超級(jí)計(jì)算機(jī)擁有一顆“中國(guó)芯”,是中國(guó)科學(xué)家久遠(yuǎn)的夢(mèng)想。國(guó)防科技大學(xué)成功研發(fā)“飛騰1000”CPU,并成功應(yīng)用于“天河一號(hào)”,部分取代進(jìn)口CPU,讓夢(mèng)想成真。“天河二號(hào)”上的國(guó)產(chǎn)“飛騰1500”CPU占全部CPU的八分之一。若用戶需要,完全可以100%采用國(guó)產(chǎn)CPU。

  科學(xué)領(lǐng)域的巔峰,從來就不是靜止的,而是時(shí)刻在變化、在發(fā)展、在攀高。因此,巔峰不是科學(xué)家追求的終結(jié),而是繼續(xù)沖刺的新起點(diǎn)。一次次把巔峰踏在腳下又一次次出發(fā),是科學(xué)家的生活方式和生命狀態(tài)。

  隨著天河人不斷向前跋涉的腳步,中國(guó)超級(jí)計(jì)算機(jī)技術(shù)創(chuàng)新不斷譜寫新的世界紀(jì)錄:

  2013年11月,在第四十二屆國(guó)際TOP500排名中,“天河二號(hào)”再度奪得世界冠軍。

  2014年6月,“天河二號(hào)”實(shí)現(xiàn)國(guó)際TOP500排名“三連冠”。

  2014年11月,“天河二號(hào)”以每秒33.86千萬億次的浮點(diǎn)運(yùn)算速度,第四次摘得全球運(yùn)行速度最快的超級(jí)計(jì)算機(jī)桂冠,持續(xù)計(jì)算速度比排名第二的美國(guó)“泰坦”快近1倍。這是“天河”系列超級(jí)計(jì)算機(jī)第五次奪得世界超算桂冠。

  ……

  雙科“狀元”

  中華民族的迅速崛起,就像是一個(gè)曾疾病纏身、弱不禁風(fēng)的小伙子,突然變成一個(gè)體魄偉岸、孔武有力的壯漢子。小伙子自己是高興了,可那些已習(xí)慣于對(duì)他指指點(diǎn)點(diǎn)、吆三喝四甚至拳腳相加的人心里就不痛快了,于是就有了“中國(guó)威脅論”,就有了針對(duì)中國(guó)的“圍堵外交”,就有了“亞太再平衡”……

  與此同時(shí),西方國(guó)家在中國(guó)培植的“應(yīng)聲蟲”們,在一批以逆反為樂卻世事不諳的“憤青”們的附和下,玩起了唱衰中國(guó)的鬼把戲。但如何唱衰?直接指責(zé)中國(guó)執(zhí)政黨、中國(guó)政府,他們沒這個(gè)膽;直接說中國(guó)這政策不行、那政策不行,大概他們自己都覺得既露骨而又蒼白;說中國(guó)人這也不是、那也不是,他們又得顧忌自己身上還披著“中國(guó)人”的外衣。于是,他們就“曲徑通幽”,找點(diǎn)所謂的“事實(shí)”來說話。在此情況下,為中國(guó)人爭(zhēng)了大光,證明中國(guó)還行的“天河”超級(jí)計(jì)算機(jī),就自然而然地成了他們說事的靶子、攻擊的目標(biāo)。

  西方國(guó)家的“應(yīng)聲蟲”的第一種論調(diào)是:“研制超級(jí)計(jì)算機(jī),在中國(guó)都是政府投資,僅僅是政治需要,而并非實(shí)際應(yīng)用,并不像美國(guó)、日本,純粹是市場(chǎng)行為。”

  誠(chéng)然,包括“銀河”“天河”在內(nèi)的國(guó)產(chǎn)超級(jí)計(jì)算機(jī)研制,均由政府主導(dǎo)。但“紅彬”“泰坦”“京”等世界頂尖超級(jí)計(jì)算機(jī)研發(fā),也都是由美國(guó)、日本政府直接投資,IBM、Cray、富士通等公司聯(lián)合國(guó)家科研單位研制的,這與中國(guó)研發(fā)模式毫無二致。研發(fā)超級(jí)計(jì)算機(jī),從來都是為了解決涉及國(guó)家安全與發(fā)展問題的重大科學(xué)問題和增強(qiáng)綜合國(guó)力,都不是純粹的市場(chǎng)行為和商業(yè)利益驅(qū)動(dòng),任何國(guó)家無不如此。

  中國(guó)的超級(jí)計(jì)算機(jī),也一直走的是研制與應(yīng)用的道路。研制“天河一號(hào)”時(shí),國(guó)防科技大學(xué)超級(jí)計(jì)算機(jī)應(yīng)用創(chuàng)新團(tuán)隊(duì),在宋君強(qiáng)帶領(lǐng)下,積極深入用戶第一線,逐家拜訪重點(diǎn)用戶和潛在用戶,了解他們對(duì)科學(xué)工程計(jì)算、大數(shù)據(jù)處理以及高吞吐率和高安全信息服務(wù)等多種應(yīng)用需求,在此基礎(chǔ)上提煉出對(duì)每秒千萬億次超級(jí)計(jì)算機(jī)設(shè)計(jì)的技術(shù)要求,不斷優(yōu)化機(jī)器使用環(huán)境,同時(shí)向用戶宣傳每秒千萬億次系統(tǒng)特點(diǎn),引導(dǎo)用戶學(xué)習(xí)和采用新技術(shù),促進(jìn)了機(jī)器設(shè)計(jì)與應(yīng)用的互補(bǔ)互促,為我國(guó)新一代超級(jí)計(jì)算機(jī)成為用戶“好用”“想用”的機(jī)型打下了良好基礎(chǔ)。“天河一號(hào)”投入使用后,構(gòu)建形成了石油勘探、生物醫(yī)藥、動(dòng)漫與影視特效渲染、高端裝備制造、地理信息等五大高性能計(jì)算應(yīng)用平臺(tái),取得了一批具有國(guó)際先進(jìn)水平的創(chuàng)新成果。

  “天河二號(hào)” 研制戰(zhàn)役打響后,宋君強(qiáng)又帶領(lǐng)團(tuán)隊(duì)針對(duì)多態(tài)應(yīng)用多元需求問題,認(rèn)真梳理規(guī)劃科研方向,在科學(xué)工程計(jì)算、超大資源規(guī)模的云服務(wù)平臺(tái)、大數(shù)據(jù)處理等方面進(jìn)行一系列創(chuàng)新完善,使“天河二號(hào)”更加“好用”“實(shí)用”。此外,科研人員通過多層次容錯(cuò)設(shè)計(jì),實(shí)現(xiàn)了超大系統(tǒng)的智能化管理,實(shí)現(xiàn)了自動(dòng)監(jiān)控、檢測(cè)、診斷、隔離系統(tǒng)運(yùn)行時(shí)出現(xiàn)的故障,全系統(tǒng)連續(xù)穩(wěn)定時(shí)間比“天河一號(hào)”提高1.5倍,可靠性、可用性邁上一個(gè)新臺(tái)階。

  如此把事實(shí)一擺就不難發(fā)現(xiàn),這些“應(yīng)聲蟲”是用“市場(chǎng)行為”描述“主子國(guó)家”,用“政治任務(wù)”描述“自己國(guó)家”,其歸根到底還是西方國(guó)家“雙重標(biāo)準(zhǔn)”在超級(jí)計(jì)算機(jī)領(lǐng)域的翻版。

  “‘天河二號(hào)’只是理論速度最快,在以實(shí)用性為主要考量的Craph500榜單上名列第六。”這是唱衰中國(guó)超算的第二種說法。

  “天河”從奪冠到連冠,都是國(guó)際TOP500認(rèn)定的,而且該機(jī)構(gòu)排名依據(jù)并不是理論,而是LINPACK應(yīng)用實(shí)測(cè)性能,這是已經(jīng)實(shí)行了30多年、世界公認(rèn)最具權(quán)威的系統(tǒng)排行標(biāo)準(zhǔn)。此后,國(guó)際上又出現(xiàn)了HPCC、Craph500、HPCG等其他排行榜,用不同測(cè)試程序衡量超級(jí)計(jì)算機(jī)某些方面的應(yīng)用性能。在Craph500實(shí)測(cè)中,“天河二號(hào)”由于大量提升空間未被挖掘,僅用部分節(jié)點(diǎn)參加測(cè)試,只獲得排名第六。而國(guó)際TOP500排名第三的美國(guó)“紅彬”按HPCG排名竟未上榜,國(guó)際TOP500排名第二的美國(guó)“泰坦”在Craph500榜上無名。

  “應(yīng)聲蟲”們?yōu)槭裁囱劬χ欢⒅?ldquo;天河”?為什么不同時(shí)說說美國(guó)機(jī)器?看來還是主子的“雙重標(biāo)準(zhǔn)”思維在他們的腦袋里作祟。

  “‘天河二號(hào)’耗電驚人,不代表人類超級(jí)計(jì)算機(jī)發(fā)展方向。”這是他們抹黑國(guó)產(chǎn)超級(jí)計(jì)算機(jī)的第三個(gè)依據(jù)。

  能耗問題,是超級(jí)計(jì)算機(jī)繼續(xù)向前發(fā)展的最大障礙。中國(guó)人從“銀河”巨型機(jī)工程開啟時(shí),就開始認(rèn)識(shí)到這一問題應(yīng)著力予以解決,并為人類破解這一科學(xué)難題貢獻(xiàn)了一系列創(chuàng)新技術(shù)。采用了新型能耗控制機(jī)制的“天河二號(hào)”,按照評(píng)價(jià)能耗的Green500排名標(biāo)準(zhǔn),與位于國(guó)際TOP500排名第二、第三的美國(guó)“泰坦”“紅彬”相當(dāng),而遠(yuǎn)遠(yuǎn)好于排名第四的日本機(jī)器“京”,是一臺(tái)節(jié)能高效的機(jī)器。而“應(yīng)聲蟲”們竟然拿排名比“天河二號(hào)”低兩個(gè)數(shù)量級(jí)的機(jī)器比能耗,得出“天河二號(hào)”高能耗的結(jié)論。這不僅是“雙重標(biāo)準(zhǔn)”,更是顛倒黑白、危言聳聽!

  還有人說:“‘天河二號(hào)’用的微處理器,相當(dāng)部分是進(jìn)口CPU,根本談不上自主創(chuàng)新。”

  還是一個(gè)科學(xué)家說得好:“難道我們建房子,有一部分磚不是自己燒制的,就說這房子不是我們自己建的了?”其實(shí),憑著“飛騰1500”的質(zhì)量,完全可以100%“中國(guó)芯”,之所以只能“部分”,是由于應(yīng)用軟件大部分是進(jìn)口的,只能在進(jìn)口微處理器上運(yùn)行。因此,國(guó)產(chǎn)微處理器只能用于服務(wù)陣列。

  “中國(guó)超級(jí)計(jì)算機(jī)發(fā)展重視硬件、輕視軟件,‘天河二號(hào)’一些用戶需要10年時(shí)間來編寫必要的代碼,用戶分布單一,應(yīng)用程度遠(yuǎn)遠(yuǎn)低于美國(guó)等發(fā)達(dá)國(guó)家。”這是那些網(wǎng)絡(luò)大V們唱衰中國(guó)超級(jí)計(jì)算機(jī)又一論調(diào)。

  用戶果真需要10年編寫代碼嗎?天河人一針見血地指出:“這是把某些應(yīng)用領(lǐng)域較長(zhǎng)的開發(fā)期與在‘天河二號(hào)’上實(shí)際應(yīng)用時(shí)較短的移植周期混為一談。”

  又是混淆視聽、刻意抹黑!

  聽著這些“應(yīng)聲蟲”“憤青”怨婦般對(duì)國(guó)產(chǎn)超級(jí)計(jì)算機(jī)絮絮叨叨,不禁讓人想起2010年11月國(guó)際TOP500在美國(guó)頒獎(jiǎng)時(shí)發(fā)生的一幕。

  那天,國(guó)際TOP500撰稿人剛一宣布“天河一號(hào)”世界排名第一,會(huì)場(chǎng)便像炸了鍋似的沸騰起來,與會(huì)者發(fā)出一片驚愕聲。上臺(tái)領(lǐng)獎(jiǎng)的國(guó)防科技大學(xué)代表劉光明還未走下領(lǐng)獎(jiǎng)臺(tái),一名美國(guó)記者就帶著一臉憤怒與不屑,迫不及待地站起來質(zhì)問國(guó)際TOP500撰稿人:“你們覺得以LINPACK應(yīng)用實(shí)測(cè)性能為排名標(biāo)準(zhǔn)是科學(xué)的嗎?”

  自從國(guó)際TOP500創(chuàng)立以來,已經(jīng)運(yùn)行了30多年的排名標(biāo)準(zhǔn),從未有人對(duì)其科學(xué)性提出過質(zhì)疑,而中國(guó)“天河一號(hào)”奪得頭名了,就有人(包括一些科學(xué)家)認(rèn)為它不科學(xué)了。這實(shí)在耐人尋味。

  不過仔細(xì)想想也是,正如新華社知名記者白瑞雪所言:“超級(jí)計(jì)算機(jī)排名,可不是劉翔與羅伯斯的110米欄比賽,腳往欄上一跨就勝負(fù)分明,它顯然要復(fù)雜得多。”

  國(guó)際TOP500機(jī)構(gòu)采納了質(zhì)疑者們的建議,在廣泛征求業(yè)內(nèi)人士的基礎(chǔ)上,又設(shè)計(jì)了超級(jí)計(jì)算機(jī)高性能共軛梯度(HPCG)基準(zhǔn)測(cè)試排行榜。

  對(duì)于超級(jí)計(jì)算機(jī)高性能共軛梯度(HPCG)基準(zhǔn)測(cè)試排行榜與國(guó)際TOP500排行榜的關(guān)系,白瑞雪也有一個(gè)非常形象的比喻:“這就相當(dāng)于兩套考卷,國(guó)際TOP500運(yùn)用的LINPACK,是已經(jīng)使用了30年的標(biāo)準(zhǔn)考卷A卷,而高性能共軛梯度(HPCG)則是近期推出的B卷。前者主要考查計(jì)算速度,而后者主要衡量應(yīng)用性能。”

  2014年11月,國(guó)際TOP500機(jī)構(gòu)首先發(fā)布第44屆世界超級(jí)計(jì)算機(jī)500強(qiáng)排行榜,“天河二號(hào)”當(dāng)仁不讓地榮獲“四連冠”。次日,國(guó)際TOP500組織首次正式發(fā)布超級(jí)計(jì)算機(jī)高性能共軛梯度(HPCG)基準(zhǔn)測(cè)試排行榜,“天河二號(hào)”還是位居世界第一。也就是說,無論是考查速度的A卷,還是考查應(yīng)用性能的B卷,“天河二號(hào)”都是“狀元”!

  “天河二號(hào)”,是名富其實(shí)的“世界學(xué)霸”“雙料冠軍”!

  也許這依然難以堵住那些“應(yīng)聲蟲”“憤青”們的嘴,他們還會(huì)氣壯如牛地“雞蛋里挑骨頭”。那就讓他們挑好了,只要自己足夠強(qiáng)大,就會(huì)在挑刺中變得更強(qiáng)大。再說天河人也從來沒把第一看得那么重,正如領(lǐng)獎(jiǎng)代表盧宇彤說:“盡管‘天河二號(hào)’連續(xù)幾次奪冠,但中國(guó)超級(jí)計(jì)算機(jī)離世界第一還早著呢。美國(guó)在超級(jí)計(jì)算機(jī)領(lǐng)域仍處于主導(dǎo)地位。”

  倒是外國(guó)科學(xué)家對(duì)“天河二號(hào)”前景非常看好。國(guó)際TOP500主要撰稿人杰克·唐加拉預(yù)言:“在2017年以前,我看不到美國(guó)及其他國(guó)家有什么機(jī)器可以與‘天河二號(hào)’競(jìng)爭(zhēng)。”

 

  尾聲:超越?jīng)]有終點(diǎn)

 

  雖然異構(gòu)融合體系結(jié)構(gòu)作為主流技術(shù),在超級(jí)計(jì)算機(jī)研制領(lǐng)域風(fēng)頭正勁,但它同樣改變不了科學(xué)發(fā)展“后浪推前浪”的鐵律。異構(gòu)融合時(shí)代與計(jì)算機(jī)技術(shù)所經(jīng)歷的電子管時(shí)代、晶體管時(shí)代、集成電路時(shí)代、并行計(jì)算時(shí)代一樣,終將進(jìn)入“冰封”時(shí)期,而且這種跡象已逐漸顯露出來。正如中國(guó)科學(xué)院院士、國(guó)防科技大學(xué)校長(zhǎng)、CPU+GPU異構(gòu)融合技術(shù)創(chuàng)始人楊學(xué)軍在學(xué)術(shù)報(bào)告《并行計(jì)算六十年》中所言:“生物分子模擬、航空宇宙計(jì)算、颶風(fēng)預(yù)測(cè)等超算高端應(yīng)用的不斷增長(zhǎng),不斷推動(dòng)高性能計(jì)算繼續(xù)向前發(fā)展?,F(xiàn)在,超級(jí)計(jì)算正處于從P級(jí)向E級(jí)過渡時(shí)期,而面向E級(jí)的超算正面臨著巨大的挑戰(zhàn)??茖W(xué)界把這些挑戰(zhàn)比作‘墻’,比如‘存儲(chǔ)訪問墻’‘通信墻’‘可靠性墻’‘能量墻’等等,現(xiàn)在這些‘墻’正隨著超級(jí)計(jì)算機(jī)系統(tǒng)運(yùn)算性能的不斷抬升而越筑越高。”

  而與此同時(shí),超級(jí)計(jì)算機(jī)的國(guó)際政治地位和國(guó)家戰(zhàn)略地位卻在不斷飆升。

  2014年夏,剛從黨派紛爭(zhēng)動(dòng)亂中平靜下來的烏克蘭,又突然陷入動(dòng)蕩,親俄總統(tǒng)被親美分子轟下總統(tǒng)寶座,國(guó)家外交天平又向北約傾斜。俄羅斯總統(tǒng)為保后院安全,捍然出兵克里米亞。美國(guó)和歐盟國(guó)家群起從政治、外交、經(jīng)濟(jì)等層面“圍剿”俄羅斯。面對(duì)咄咄逼人的制裁,俄羅斯總統(tǒng)普京放出狠話:“別忘了俄羅斯是戰(zhàn)略武器大國(guó)!”

  “別忘了俄羅斯是戰(zhàn)略武器大國(guó)”,既亮出了一個(gè)國(guó)家的底氣,也彰顯了當(dāng)今戰(zhàn)略武器的世界政治地位,并標(biāo)志著大國(guó)以戰(zhàn)略武器對(duì)峙為標(biāo)志“冷戰(zhàn)”再次拉開序幕。

  面對(duì)俄羅斯的強(qiáng)硬,西方國(guó)家尤其是美國(guó)出人意料地保持沉默。那是因?yàn)樗麄冎溃约阂劳惺澜缟献顝?qiáng)大的超算平臺(tái)研制的那些世上最完備的戰(zhàn)略武器系統(tǒng),不用“晾曬”,世人也早就看在眼里、懼在心里。

  幾個(gè)月后,美國(guó)能源部突然宣布:美國(guó)將投資3.25億美元建造兩套超級(jí)計(jì)算機(jī)系統(tǒng),其計(jì)算速度將超出連續(xù)四次獲得國(guó)際TOP500排名第一的中國(guó)“天河二號(hào)”3至4倍,重新奪回世界桂冠。

  美國(guó)能源部官員對(duì)此的解釋是:“超級(jí)計(jì)算是國(guó)家發(fā)展的戰(zhàn)略領(lǐng)域,也是美國(guó)的傳統(tǒng)優(yōu)勢(shì)領(lǐng)域?,F(xiàn)在這一優(yōu)勢(shì)正在發(fā)生改變,對(duì)此,美國(guó)政府不能置若罔聞。”

  媒體和網(wǎng)民對(duì)它的解讀就更豐富、更有意思了:

  俄羅斯媒體說:“美國(guó)這一決定,是在告訴我們的普京大帝:你就別用戰(zhàn)略武器嚇唬我了,就憑著我比你強(qiáng)過百倍、千倍的超級(jí)計(jì)算機(jī),就可以永遠(yuǎn)保持比你強(qiáng)大得多的戰(zhàn)略武器系統(tǒng)。”

  美國(guó)網(wǎng)民認(rèn)為:“美國(guó)經(jīng)濟(jì)遇到麻煩了。政府的這一投資,是在增強(qiáng)推動(dòng)創(chuàng)新的引擎,牽引經(jīng)濟(jì)向前發(fā)展。”

  中國(guó)的網(wǎng)民說:“山姆大叔在連年削減軍費(fèi)的情況下,還舍得花血本與中國(guó)爭(zhēng)國(guó)際TOP500桂冠,既讓人嗅到濃濃的醋酸味,更讓人想到了他的‘亞太再平衡’,想到他和日本在中國(guó)的東海、南海、香港攪局的那些事。”

  ……

  不管媒體怎么說、網(wǎng)民怎么猜,擺在中國(guó)超算人面前的事實(shí)是:別人已經(jīng)指名道姓放馬過來。

  正當(dāng)超級(jí)計(jì)算機(jī)決戰(zhàn)硝煙再次燃起之際,經(jīng)全國(guó)人民投票,天河團(tuán)隊(duì)當(dāng)選中央電視臺(tái)“感動(dòng)中國(guó)”創(chuàng)新團(tuán)隊(duì)。

  國(guó)家科技進(jìn)步獎(jiǎng)評(píng)選委員會(huì)也發(fā)布公告——“天河一號(hào)”超級(jí)計(jì)算機(jī)榮獲國(guó)家科技進(jìn)步特等獎(jiǎng)!

  面對(duì)挑戰(zhàn)與褒獎(jiǎng)、壓力與期待,天河人淡定地說:“大國(guó)在超級(jí)計(jì)算機(jī)領(lǐng)域相互超越已成常態(tài)的情況下,我們的選擇只有一個(gè),那就是超越、超越、再超越!”

  高科技競(jìng)爭(zhēng),是一場(chǎng)沒有終點(diǎn)的長(zhǎng)征。

  征戰(zhàn)者永遠(yuǎn)在路上!

 

  (選自《決戰(zhàn)崛起——中國(guó)超算強(qiáng)國(guó)之路》,國(guó)防科技大學(xué)出版社,2015年9月出版)

 

  作者簡(jiǎn)介:

  龔盛輝,湖南江永人,1989年畢業(yè)于西安政治學(xué)院,現(xiàn)任國(guó)防科技大學(xué)??庉嫴烤帉?,中國(guó)作家協(xié)會(huì)會(huì)員,湖南省報(bào)告文學(xué)學(xué)會(huì)副會(huì)長(zhǎng)。1994年開始文學(xué)創(chuàng)作,先后出版長(zhǎng)篇報(bào)告文學(xué)《鑄劍》《決戰(zhàn)崛起》《向著中國(guó)夢(mèng)強(qiáng)軍夢(mèng)前行》《國(guó)防之光》和長(zhǎng)篇小說《絕境無淚》,發(fā)表中篇小說《老大》《通天橋》《與我同行》等10余篇,報(bào)告文學(xué)作品先后獲得中宣部五個(gè)一工程獎(jiǎng)、全軍優(yōu)秀文學(xué)藝術(shù)獎(jiǎng)特別獎(jiǎng)、湖南省五個(gè)一工程獎(jiǎng),小說作品多次獲得全軍文藝新作品獎(jiǎng)、昆侖文學(xué)獎(jiǎng)。因創(chuàng)作成績(jī)突出,經(jīng)總政治部批準(zhǔn)記二等功一次。

湖南省作家協(xié)會(huì) | 版權(quán)所有 : 湘ICP備05001310號(hào)
Copyright ? 2005 - 2012 Frguo. All Rights Reserved