《黃仁勳傳》,『運氣』但有遠見作為基礎

這本「會思考的機器」(The Thinking Machine),以黃仁勳為敘事主軸,並以「神經網路的興起」作為副旋律,交織出一段人工智慧(AI)的現代史。

作者史帝芬‧維特(Stephen Witt)不僅記錄了一位企業家的崛起,更試圖捕捉一個時代的「思考結構」– 當演算法與硬體開始相互共振,機器的運算便逐漸逼近人類的思維。


本書的主旨

黃仁勳所代表的GPU硬體革命,與神經網絡(neural network)的軟體革命,彼此纏繞如同DNA的雙螺旋 – 兩者交織出的「會思考的機器」,正以不可逆的速度吞噬全球數據資料,並重塑人類理解世界的方式。


Ⅰ. 平行運算

1990年代末,《雷神之鎚》(Quake)系列的玩家渴望在遊戲中看到更真實的光影與血漬效果,這促使顯示卡廠商追求一項新技術 – 多重「像素著色器」(pixel shader)。它允許演算法為3D場景中的每個像素分別指定顏色與反射,讓畫面中的每一滴血光、每一道陰影,都能擁有獨立的物理邏輯。

然而,雙重著色器意味著兩倍的運算工作,當時的硬體根本承受不住。顯卡龍頭3dfx嘗試在一張顯卡上放入兩顆繪圖晶片以提高著色效率,卻因電路板空間不足與功耗過高而功敗垂成。

與此同時,輝達由柯克(David Kirk)領軍的團隊選擇了另一條路:
  若能將像素資料分成兩個資料集(dataset),並讓同一晶片上的多條管線同時執行相同指令集,是否能達成更高效的運算?

這個構想,正是「平行運算」(parallel computing)的雛形。

1998年6月,輝達推出具劃時代意義的RIVA TNT顯卡。TNT是Twin Texels的縮寫,透過複雜的切換機制控制雙像素算繪管線,使多管線可同時處理資料。對圖形運算而言,這種結構近乎完美,因為渲染任務天生就是重複的且適合並行。

平行運算的本質,不在於加快時脈,而是讓更多電晶體同時響應每一次的指令 – Intel的CPU一次只能依序啟動數個電晶體,而輝達的GPU則能在同一時間啟動成千上萬個。這種架構讓GPU從繪圖晶片蛻變為人工智慧的運算引擎,也奠定了輝達今日稱霸AI晶片市場的基石。

輝達,從根本上重新定義了晶片運算


Ⅱ. 神經網路興起的四個時刻

(1) 1994:水母的誕生

故事要從1994年說起。芬蘭研究員法雷德里克‧達爾(Fredrik Dahl)推出了首款公開販售的神經網路軟體 –「水母」(Jellyfish),一個能與人類對戰雙陸棋的AI程式。

彼時的主流學界仍將神經網路視為無用的玩具。早在1940年代,神經網的概念便已誕生,但受限於硬體能耗與成本,遲遲無法推進。1969年,麻省理工學院的馬文‧明斯基(Marvin Minsky)證明單層神經元無法執行最簡單的運算,導致研究資金蒸發,AI迎來第一個寒冬。

直到1986 年,大衛‧魯梅哈特(David Rumelhart)、傑佛瑞‧辛頓(Geoffrey Hinton)與隆納德‧威廉斯(Ronald Williams)提出劃時代的「反向傳播」(backpropagation)演算法。自此,神經網路得以自我修正,開始像人類一樣「從經驗中學習」。

1990年,IBM研究員傑若德‧泰薩羅(Gerald Tesauro)讓電腦與自己對戰數十萬次,不斷修正策略 – 這正是「強化學習」(reinforcement learning, RL)的雛形,可惜的是IBM沒有將此技術商業化。

1994年,達爾延續這條路,成功讓神經網路學會策略推演。「水母」的誕生,意味著AI首次具備了自我學習與創新的能力,為深度學習(deep learning)革命埋下種子。

(2) 2012:AlexNet

2012年,辛頓的兩位學生 – 亞歷克斯‧克里澤夫斯基(Alex Krizhevsky)與伊利亞‧蘇茨克維(Ilya Sutskever) – 利用卷積神經網路(convolutional neural network, CNN)與輝達CUDA平台訓練圖像辨識模型。GPU竟然只需30秒,便完成了CPU一小時的任務。

兩人湊出500美元,買了兩張GeForce GTX 580去訓練他們的模型,最終在李飛飛團隊舉辦的ImageNet圖像辨識競賽中以壓倒性的85%精準度奪冠。(註: 精準度較前一年提升驚人的10%;而一般人做判斷的精準度約是97%)

這個名為AlexNet的模型,標誌著深度學習正式登上主流舞台。從此,神經網路與GPU的頻率開始共振。

(3) 2013:一生一次的機會(OIALO)

2012年,輝達研究員布萊恩‧卡坦察羅(Bryan Catanzaro)與吳恩達(Andrew Ng)在Google Brain嘗試讓電腦學會辨識「貓」。吳恩達採用傳統的運算架構 – 用2,000個CPU組成叢集完成實驗;輝達首席科學家達利(Bill Dally)請卡坦察羅用輝達的GPU再做一次這項實驗。結果,他僅用12個GPU便大功告成。

自此,事情開始加速運轉。在Google收購了辛頓團隊所組成的DNNResearch後,一場平行運算革命就此展開。Google其他研究員也開始模仿他們,改用幾張零售的輝達顯卡進行深度學習的試驗。

卡坦察羅敏銳地察覺到風向的轉變。他決定直接向黃仁勳呈報。黃仁勳眼睛為之一亮,立刻清空週末行程,去閱讀所有神經網路相關的論文與書籍。再度會面時,卡坦察羅驚訝地發現:黃仁勳已能與他平等對話。不久後,黃仁勳宣稱:cuDNN – 為神經網路打造的CUDA軟體函式庫 – 是輝達二十年來最重要的計畫。黃仁勳認為那是「一生一次的機會」(Once in a Lifetime Opportunity, OIALO)

從那一刻起,輝達正式全力押注人工智慧。

(4) 2017:Transformer

2014年,Google研究員雅寇布‧烏斯克瑞特(Jakob Uszkoreit)思索著人腦中負責語言的神經元占比竟不到1% – 語言理解或許不需記憶結構,只要掌握「上下文」關係即可。

他設計出「自注意力機制」(Self-Attention),讓模型同時關注整個句子的脈絡,而非逐字處理。

★註:但光有「注意力」還不夠,模型還需要一個負責儲存知識與推理的大腦。於是,此架構更引入多層感知器(Multi-Layer Perceptron, MLP)與注意力機制搭配運作:若說注意力機制負責在海量資訊中「尋找關聯」,MLP則負責「沉澱知識」與進行運算,MLP甚至佔據了約2/3的參數與運算成本。

這種設計天生適合GPU的平行架構。2017年,烏斯克瑞特的8人團隊發表論文〈Attention Is All You Need〉(注意力,就是你所需的一切)。並取名為Transformer,這改寫了自然語言處理的歷史。它能預測字詞、生成段落、譜曲、作畫。然而Google管理層並未將它推向市場;有關Google「創新者的兩難」,不妨參見《AI霸主》,科技巨頭的失控列車

直到2018年,蘇茨克維 – AlexNet成員之一、OpenAI聯合創辦人 – 看見了這份潛力,將Transformer結合「預訓練」(pretrain)技術,由OpenAI打造出GPT(Generative Pre-trained Transformer, 即生成式預訓練Transformer)。2018年6月GPT-1誕生。

2022年11月30日,ChatGPT開放測試。從此,AI世界的軸線正式轉動 – Transformer架構與平行運算成為兩股共鳴的引擎,迎來了人工智慧的寒武紀大爆發。


Ⅲ. 輝達,其實是一間軟體公司

讓輝達難以被取代的核心,不是硬體性能,而是那層無形的軟體 – CUDA

2012至2022年間,輝達單晶片AI效能提升1,000 倍,其中僅約2.5倍來自製程進步,其餘皆是軟體工程師的成果。他們優化運算邏輯、簡化資料類型、甚至會剪除短陣中「死掉的突觸」。

輝達還建立起全球最大的開發者生態系,提供300多款特定領域工具,而且全數免費。這不是單純的開放策略,而是長遠的商業布局 – 讓使用者在不知不覺中被CUDA生態綁定。有關CUDA生態系乃一種鎖定效應(lock-in effect),也可參見《輝達之道》,就是黃仁勳的寫照

正如輝達軟體工程主管德懷特‧迪爾克斯(Dwight Diercks)所言:

  『很多人就是不懂,我們其實是一間軟體公司。


結語

輝達創立之初,吸引紅杉資本與薩特希爾創投注資的,並不是「輝達」這個案子,而是黃仁勳本人。多年後,他們依然坐在輝達的董事會。在他們眼中,黃仁勳最大的特質是 – 他可以學,而且總是學得很好。即便在草創初期,對企業營運知之有限,但他願意全心投入去理解,勤讀所有重要的商業書籍。如今的黃仁勳,是少數同時擁有深厚技術背景、又精通商業策略的科技領導人。也完美詮釋了所謂「創辦人的原力」。

2023年底,時任Intel執行長的季辛格(Pat Gelsinger)在演講中宣稱,輝達在GPU的發展上「非常幸運」;但對此,黃仁勳自己的回答更深具啟發:「運氣,但有遠見作為基礎。

他不僅孜孜不倦地工作,更勇於嘗試新構想與新技術,並擁有足夠的耐心去等待成果。正如Nike創辦人菲爾‧奈特(Phil Knight)所說:「決定結局的或許是運氣。但你愈努力不懈,你的『道』就愈強。

成功沒有秘密 – 一切不過是充分的準備、持續地努力工作,以及從錯誤中不斷學習的結果;而《輝達之道》這本企業傳記,講述的正是這個精神:從自己所犯的錯誤中學習。也不妨再次參見《輝達之道》,就是黃仁勳的寫照

克里斯汀生的《創新的兩難》中指出:老牌企業之所以難以切入「新的市場」,乃因投資人與客戶都告訴他們不要這麼做。但黃仁勳走上相反的道路,他顛覆了大型企業的慣性思維,純粹是把工作推向極限,如今他推動自己成為一位偉大的執行長,去思考卓越的執行長該有怎麼樣的投入、怎麼樣的產出,把這當成一個問題來解決 – 他就是一部會思考的機器,不斷自我學習、自我修正、永不滿足於現狀。


與《輝達之道》的比較

《輝達之道》聚焦於公司文化,作者金泰(Tae Kim)是一位長期追蹤輝達的記者,他以精湛的敘事手法,從輝達草創、崛起到GPU時代與CUDA生態系的建立,揭示「輝達的公司文化造就了這一切」的核心。然而,這本書對AI與神經網路的崛起著墨不多。

《黃仁勳傳》則從另一個維度切入 – 它不只是企業史,更是AI的演化史。作者維特將輝達的命運與神經網路的歷程並行敘事,讓讀者理解為何輝達能在AI的大趨勢中脫穎而出。他筆觸流暢,有一定的知識密度,但沒有艱澀難懂的技術語彙。這本書兼具可讀性與啟發性。


[後記]

本書另一位靈魂人物,是被譽為「深度學習之父」的傑佛瑞‧辛頓(Geoffrey Hinton)。

他於2024年與約翰‧霍普菲爾德(John J. Hopfield)共同獲得諾貝爾物理獎,肯定兩人對神經網路與機器學習的開創性貢獻。

神經網路的本質,其實是模仿人腦:神經元透過突觸彼此傳遞訊號,在學習過程中不斷強化連結。人工智慧所做的,不過是以矽晶電路,模仿人腦中那套神經學習的機制。

早在2009年的神經資訊處理大會(NIPS)大會上,辛頓便大力推廣GPU對深度學習的潛力,但當時的輝達尚未察覺到這股浪潮。直到2012年AlexNet橫空出世,他與學生克里澤夫斯基、蘇茨克維都意識到一件事:

  『AlexNet雖受惠於輝達,但輝達將因AlexNet而受益更多。』

自那一年起,AI的黎明正式被點燃。輝達的命運與人工智慧,有如神經元與突觸般永遠緊密地相連。

又或許,如AI科學家李飛飛所說的:「神經網路一直都在那裡,只是在等待我們給它一幅足夠清晰的世界圖像,讓它去看見、去理解這個世界。」

留言

這個網誌中的熱門文章

《閃電擴張》,企業如何從1到10億執行規模化?

《端粒效應》,如何用科學延緩衰老?

《細胞之歌》:我們應當試著「認識自己」