強(qiáng)化學(xué)習(xí)之父入局AGI創(chuàng)業(yè)！聯(lián)手傳奇程序員卡馬克，不依賴大模型

發(fā)布時(shí)間：2023-10-09 文章來(lái)源：本站瀏覽次數(shù)：1862

傳奇程序員卡馬克（John Carmack），與強(qiáng)化學(xué)習(xí)之父薩頓（Richard Sutton）強(qiáng)強(qiáng)聯(lián)手了，All in AGI。

2030年向大眾展現(xiàn)通用人工智能的方針是可行的。

并且與干流辦法不同，不依賴大模型范式，更追求實(shí)時(shí)的在線學(xué)習(xí)。

兩人在薩頓任教的阿爾伯塔大學(xué)機(jī)器智能研討所（Amii）特別活動(dòng)上宣告了這一音訊。

薩頓會(huì)參加卡馬克的AI創(chuàng)業(yè)公司Keen Technologies，一起堅(jiān)持在阿爾伯塔的教職。

兩人在活動(dòng)中都承認(rèn)，與擁有成百上千職工的大公司比較，Keen Technologies的團(tuán)隊(duì)規(guī)劃很小。

現(xiàn)在還在剛起步階段，公司整個(gè)技術(shù)團(tuán)隊(duì)都到了現(xiàn)場(chǎng)——

只要站著的這4個(gè)人。

其融資規(guī)劃2000萬(wàn)美元，與OpenAI、Anthropic這樣動(dòng)輒幾十億的也無(wú)法比。

但他們信任，終究AGI的源代碼是一個(gè)人就能編寫的量級(jí)，可能只要幾萬(wàn)行。

并且其時(shí)AI領(lǐng)域正處在杠桿效應(yīng)大的特別時(shí)間，小團(tuán)隊(duì)也有時(shí)機(jī)做出大貢獻(xiàn)。

傳奇程序員與強(qiáng)化學(xué)習(xí)之父

卡馬克的傳奇閱歷，從開發(fā)國(guó)際第一款3D游戲，到轉(zhuǎn)型造火箭，再到參加Oculus成為后來(lái)Meta VR要害人物的故事都已被人熟知。

后來(lái)他與AI結(jié)緣，還和OpenAI有關(guān)。

他曾在另一場(chǎng)訪談中泄漏，Sam Altman曾邀他參加OpenAI，以為他能在體系優(yōu)化方面發(fā)揮重要作用。

但卡馬克其時(shí)以為自己對(duì)機(jī)器學(xué)習(xí)范式的現(xiàn)代AI沒有任何了解，也就沒有答應(yīng)。

這卻成了他開端了解AI的一個(gè)要害。

他向OpenAI的首席科學(xué)家Ilya Sutskever要了一個(gè)入門必讀清單，從頭開端自學(xué)，先對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)算法有了根本的了解。

等有了閑暇，打算繼續(xù)涉足深度學(xué)習(xí)的時(shí)候，他來(lái)了個(gè)一周編程挑戰(zhàn)：

打印幾篇LeCun的經(jīng)典論文，在斷網(wǎng)情況下著手實(shí)踐，從推反向傳達(dá)公式開端。

一周曩昔后，他帶著用C++手搓的卷積神經(jīng)網(wǎng)絡(luò)完畢閉關(guān)，沒有憑借Python上的現(xiàn)代深度學(xué)習(xí)結(jié)構(gòu)。

只能說(shuō)佩服大神了。

此時(shí)他的主業(yè)仍是在Facebook（后改名Meta）旗下Oculus研討VR，帶領(lǐng)團(tuán)隊(duì)推出了Ouclus Go和Quest等產(chǎn)品。

不過這個(gè)過程中，他與公司管理層之間也逐步發(fā)生矛盾和不合，以為公司內(nèi)部功率低下，也曾揭露宣告不滿。

2019年，他辭去Oculus CTO職位轉(zhuǎn)而擔(dān)任“參謀CTO”，開端把更多精力轉(zhuǎn)向AI。

2022年8月，他宣告新AI創(chuàng)業(yè)公司Keen Technologies宣告融資2000萬(wàn)美元，出資者包含紅杉本錢，GitHub前CEO Nat Friedman等。

后續(xù)他也泄漏，其實(shí)戔戔2000萬(wàn)美元，自己就拿得出手。

但是從別人那里拿錢能給他一種危機(jī)和緊迫感，有更強(qiáng)烈的決計(jì)把事情做好。

2022年末，他正式脫離Meta，并將VR視為現(xiàn)已曩昔的一個(gè)人生階段，接下來(lái)徹底轉(zhuǎn)向AI。

除了這條明面上的主線之外，卡馬克與AI還有一些莫名的緣分。

當(dāng)年他的3D游戲激發(fā)了對(duì)圖形核算的需求，GPU也是從游戲領(lǐng)域開端開展壯大。

到現(xiàn)在正是GPU的算力支持了AI的爆發(fā)，他談到這些時(shí)仍為自己的貢獻(xiàn)感到驕傲。

……

今天的另一位主角薩頓也相同是位傳奇人物。

他被譽(yù)為強(qiáng)化學(xué)習(xí)之父，為強(qiáng)化時(shí)間差異學(xué)習(xí)和戰(zhàn)略梯度等辦法做出重要貢獻(xiàn)，也是強(qiáng)化學(xué)習(xí)規(guī)范教科書的合著者。

2017年他以出色科學(xué)家身份參加DeepMind，參與了AlphaGo系列研討，他的學(xué)生David Silver則是AlphaGo首要負(fù)責(zé)人之一。

薩頓寫過一篇著名短文The Bitter Lesson，以為企圖把人類閱歷教給AI是行不通的，至今停止所有打破都是依靠算力提高，繼續(xù)利用算力的規(guī)劃效應(yīng)才是正確路途。

兩人正式溝通之前，卡馬克就曾表達(dá)過對(duì)這篇文章的重視和認(rèn)同。

但兩人真實(shí)直接溝通，是薩頓主動(dòng)聯(lián)絡(luò)的。

幾個(gè)月前，卡馬克宣告AGI創(chuàng)業(yè)公司融資之后，收到了薩頓的郵件。

薩頓想要問他他在研討的路途上應(yīng)該走純學(xué)術(shù)、商業(yè)化仍是非盈利組織路線的問題。

但在后續(xù)郵件溝通中，兩人發(fā)現(xiàn)在AI研討方向和理念上存在驚人的一致性，逐漸確立了合作關(guān)系。

詳細(xì)來(lái)說(shuō)，兩人達(dá)成了4個(gè)一致：

都以為其時(shí)AGI開展被約束在很窄的幾個(gè)方向上，過多依賴大數(shù)據(jù)和大算力而忽視了創(chuàng)新
都以為太早商業(yè)化會(huì)阻礙AGI的開展
都以為終究AGI不會(huì)太雜亂，一個(gè)人就能把握全部原理，乃至一個(gè)人就能寫出首要的代碼。
都以為2030年呈現(xiàn)AGI原型是一個(gè)可行的方針。

不只依賴大模型，小團(tuán)隊(duì)也有時(shí)機(jī)

很斗膽的方針，現(xiàn)場(chǎng)觀眾也是這么以為的。

面臨“小團(tuán)隊(duì)如何搞定這么宏大的方針”的發(fā)問，卡馬克以為完成AGI所需的數(shù)據(jù)量和算力需求可能沒有想象中那么大。

把人類一整年眼中所見拍成每秒30幀的視頻，能夠裝在拇指巨細(xì)的U盤里。

而1歲兒童只擁有這么多閱歷數(shù)據(jù)，現(xiàn)已展現(xiàn)出明顯的智能。

假如算法對(duì)了，就不需要用整個(gè)互聯(lián)網(wǎng)的數(shù)據(jù)讓AGI去學(xué)習(xí)。

對(duì)于算力需求，他也是用這種直覺式的思維去考慮：人腦的核算才能也有限，遠(yuǎn)遠(yuǎn)達(dá)不到一個(gè)大型算力集群的程度。

比一個(gè)服務(wù)器節(jié)點(diǎn)（node）要大，也比一個(gè)機(jī)柜（rack）要大，但大也就再高出一個(gè)數(shù)量級(jí)。

并且跟著時(shí)間推移，算法會(huì)愈加高效，所需的算力還會(huì)繼續(xù)下降。

假如說(shuō)卡馬克在3D游戲、火箭和VR，這些看似不搭邊的作業(yè)領(lǐng)域上有什么共同點(diǎn)，那就是對(duì)大型實(shí)時(shí)反饋體系的優(yōu)化。

這也是初Sam Altman約請(qǐng)他參加OpenAI時(shí)看中的當(dāng)?shù)亍?/p>

他設(shè)想中的AGI架構(gòu)應(yīng)該是模塊化和分布式的，而不是一個(gè)巨大的集中模型。

學(xué)習(xí)也應(yīng)該是繼續(xù)的在線學(xué)習(xí)，而不是現(xiàn)在的預(yù)練習(xí)之后大部分參數(shù)就不再更新。

我的底線是，假如一個(gè)體系不能以30hz的頻率運(yùn)行，也就是練習(xí)時(shí)33毫秒左右更新一次，我就不會(huì)用它。

他進(jìn)一步表示，作為能自己寫原始Cuda代碼和能自己管理網(wǎng)絡(luò)通信的底層體系程序員，可能會(huì)去做一些其他人根本不會(huì)考慮的作業(yè)。

乃至不只局限于現(xiàn)有的深度學(xué)習(xí)結(jié)構(gòu)，會(huì)嘗試更高效的網(wǎng)絡(luò)架構(gòu)和核算辦法。

總體方針是模擬一個(gè)具有內(nèi)涵動(dòng)機(jī)和繼續(xù)學(xué)習(xí)才能的虛擬智能體，在虛擬環(huán)境中繼續(xù)學(xué)習(xí)。

不要機(jī)器人，由于制作火箭的閱歷讓他以為打交道的物理對(duì)象越少越好。

與卡馬克剛涉足AGI不久比較，薩頓在這個(gè)問題上現(xiàn)已花費(fèi)了幾十年，他有更詳細(xì)的研討方案。

雖然這次活動(dòng)上沒有說(shuō)太多，但主體部分現(xiàn)已以“阿爾伯塔方案”的形式寫在一篇arXiv論文里。

阿爾伯塔方案提出了一個(gè)一致的智能體結(jié)構(gòu)，著重普遍閱歷而不是特別的練習(xí)集，重視時(shí)間一致性，優(yōu)先考慮能隨算力發(fā)生規(guī)劃效應(yīng)的辦法，以及多智能體交互。

還提出了一個(gè)分為12步的路線圖。

前6步專心于規(guī)劃model-free的繼續(xù)學(xué)習(xí)辦法，后6步引入環(huán)境模型和規(guī)劃。

其間后一步稱為智能增強(qiáng) （Intelligence Amplification），一個(gè)智能體能夠根據(jù)一些通用準(zhǔn)則，利用它所學(xué)到的常識(shí)來(lái)放大和增強(qiáng)另一個(gè)智能體的舉動(dòng)、感知和認(rèn)知。

薩頓以為這種增強(qiáng)是充分發(fā)揮人工智能潛力的重要組成部分。

在這個(gè)過程中，確認(rèn)評(píng)估AI前進(jìn)的指標(biāo)非常重要但也十分困難，團(tuán)隊(duì)正在探索不同的開展。

別的，卡馬克一直是開源的倡導(dǎo)者，但在AGI的問題上他表示會(huì)堅(jiān)持必定開放性，但不會(huì)全部揭露算法細(xì)節(jié)。

作為一個(gè)小團(tuán)隊(duì)，卡馬克以為需要堅(jiān)持開拓精神，重視久遠(yuǎn)開展而不是短期利益，

不會(huì)過早考慮商業(yè)化，沒有像ChatGPT這樣能夠揭露發(fā)布的中心形狀。

對(duì)于2030年能做到什么境地，卡馬克以為“有能夠向大眾展現(xiàn)的AGI”，薩頓的表述是“AI原型能夠顯示出生命跡象（signs of life）”。

2030成要害節(jié)點(diǎn)

2030與AGI，并不是第一次一起呈現(xiàn)。

頂尖AI團(tuán)隊(duì)不約而同都把2030年前后作為完成AGI的要害節(jié)點(diǎn)。

比如OpenAI，在拿出20%總算力成立超級(jí)智能對(duì)齊部門的公告里寫著，咱們信任超級(jí)智能在這個(gè)十年段到來(lái)。

乃至出資界也呈現(xiàn)類似的觀念，孫正義剛剛在軟銀國(guó)際企業(yè)大會(huì)上也拿出來(lái)這樣一張PPT。

除了OpenAI和Keen Technologies，致力于開發(fā)AGI的組織并不多。

OpenAI大的競(jìng)爭(zhēng)對(duì)手，剛剛拿40億美元融資的Anthropic，其CEO Dario Amodei在近一次訪談中說(shuō)到，兩三年內(nèi)AI能體現(xiàn)得像一個(gè)受過良好教育的人類。

Transformer作者Vaswani與Palmer脫離谷歌時(shí)，興辦了AdeptAI，方針也是打造通用智能。

不過現(xiàn)在兩人今年初忽然脫離這家公司，聯(lián)合開創(chuàng)人中只留下一位David Luan（右）。

兩位Transformer作者別的興辦了一家Essential AI，這家公司的愿景就沒那么“仰望星空”了，是比較務(wù)實(shí)的大模型商業(yè)化。

國(guó)內(nèi)方面清晰喊出AGI方針的相同也不多，首要有MiniMax和楊植麟新興辦的月之暗面。

上一條：大模型需求什么樣的智算中...

下一條：內(nèi)蒙古通遼市：直播間里聊...

強(qiáng)化學(xué)習(xí)之父入局AGI創(chuàng)業(yè)！聯(lián)手傳奇程序員卡馬克，不依賴大模型

傳奇程序員與強(qiáng)化學(xué)習(xí)之父

不只依賴大模型，小團(tuán)隊(duì)也有時(shí)機(jī)

2030成要害節(jié)點(diǎn)

強(qiáng)化學(xué)習(xí)之父入局AGI創(chuàng)業(yè)！聯(lián)手傳奇程序員卡馬克，不依賴大模型