午夜欧美视频在线观看 ,亚洲国产人成综合网站,亚洲三级小视频

環(huán)球焦點！谷歌又鬧大烏龍 Jeff Dean參與的新模型竟搞錯Hinton生日

2022-10-22 16:40:31 來源：新智元

最近，谷歌研究員發(fā)布了關(guān)于指令微調(diào)的最新工作！然而卻宣傳圖中出現(xiàn)了可笑的烏龍。幾個小時之前，谷歌大腦的研究員們非常開心地曬出了自己最新的研究成果：“我們新開源的語言模型Flan-T5，在對1,800多種語言的任務進行指令微調(diào)后，顯著提高了prompt和多步推理的能力。”

然而，就在這張精心制作的“宣傳圖”上，竟藏著一個讓人哭笑不得的bug！

(資料圖片僅供參考)

請注意看Geoffrey Hinton的出生日期：

但實際上，Hinton出生于1947年……

雖然沒有必然聯(lián)系，但是Google自己的模型，竟然會把自家大佬的生日搞錯？

馬庫斯同志看完直接就驚了：你們Google，沒人負責審核的嗎……

理論上，這篇擁有31位作者，外加Jeff Dean這種大佬參與的論文，不應該發(fā)生這種“低級錯誤”才對啊。

“復制”的時候“打錯了”而已！

很快，論文的共同一作就在馬庫斯的推文下面進行了回復：“我們都知道，模型的輸出并不總是符合事實。我們正在進行負責任的AI評估，一旦有了結(jié)果，我們將立即更新論文。”

沒過多久，這位作者刪除了上面那條推文，并更新留言稱：“這只是在把模型的輸出復制到Twitter上時，『打錯了』而已。”

對此，有網(wǎng)友調(diào)侃道：“不好意思，你能不能給我翻譯翻譯，什么叫『復制』來著？”

當然，在查看原文之后可以發(fā)現(xiàn)，“圖1”所示的生日，確實沒錯。

至于在宣傳圖中是如何從“1947”變成“1963”的，大概只有做圖的那位朋友自己知道了。

隨后，馬庫斯也刪除了自己的這條推文。

世界重歸平靜，就像什么也沒有發(fā)生一樣。

只留下Google研究員自己推文下面的這條在風中飄搖——

擴展指令微調(diào)語言模型

既然誤會解除了，我們就讓話題重新回到論文本身上來吧。

去年，Google推出了一個參數(shù)量只有1370億的微調(diào)語言網(wǎng)絡FLAN（fine-tuned language net）。

https://arxiv.org/abs/2109.01652

FLAN是Base LM的指令調(diào)優(yōu)（instruction-tuned）版本。指令調(diào)優(yōu)管道混合了所有數(shù)據(jù)集，并從每個數(shù)據(jù)集中隨機抽取樣本。

研究人員稱，這種指令調(diào)節(jié)（instruction tuning）通過教模型如何執(zhí)行指令描述的任務來提高模型處理和理解自然語言的能力。

結(jié)果顯示，在許多有難度的基準測試中，F(xiàn)LAN的性能都大幅超過了GPT-3。

這次，Google將語言模型進行拓展之后，成功刷新了不少基準測試的SOTA。

比如，在1.8K任務上進行指令微調(diào)的Flan-PaLM 540B，性能明顯優(yōu)于標準的PALM 540B（平均 + 9.4%），并且在5-shot的MMLU上，F(xiàn)lan-PaLM也實現(xiàn)了75.2%的準確率。

此外，作者還在論文中公開發(fā)布Flan-T5檢查點。即便是與更大的模型（如PaLM 62B）相比，F(xiàn)lan-T5也能實現(xiàn)強大的小樣本性能。

論文地址：https://arxiv.org/abs/2210.11416

總結(jié)來說，作者通過以下三種方式擴展了指令微調(diào)：

擴展到540B模型

擴展到1.8K的微調(diào)任務

在思維鏈（CoT）數(shù)據(jù)上進行微調(diào)

作者發(fā)現(xiàn)具有上述方面的指令微調(diào)顯著提高了各種模型類（PaLM、T5、U-PaLM）、prompt設置（zero-shot、few-shot、CoT）和評估基準（MMLU、BBH、 TyDiQA、MGSM、開放式生成）。

這次的微調(diào)數(shù)據(jù)包括473個數(shù)據(jù)集、146個任務類別和1,836個總?cè)蝿铡?/p>

作者是通過結(jié)合之前工作中的四種混合（Muffin、T0-SF、NIV2 和 CoT），縮放（scale）成了下圖中的1836個微調(diào)任務。

在研究中，微調(diào)數(shù)據(jù)格式如下圖這樣組合。研究者在有樣本/無樣本、有思想鏈/無思想鏈的情況下進行了微調(diào)。要注意的是，其中只有九個思維鏈（CoT）數(shù)據(jù)集使用CoT格式。

第四種微調(diào)數(shù)據(jù)的混合涉及CoT注釋，作者用它來探索CoT注釋的微調(diào)是否可以提高看不見的推理任務的性能。

作者從先前的工作中創(chuàng)建了9個數(shù)據(jù)集的新混合，然后由人類評估者手動為訓練語料庫編寫CoT注釋。這9個數(shù)據(jù)集包括算數(shù)推理、多跳推理（multi-hop reasoning）和自然語言推理等。

作者在廣泛的模型中應用了指令微調(diào)，包括T5、PaLM和U-PaLM。對于每個模型，作者都采用了相同的訓練過程，使用恒定的學習率，并使用Adafactor優(yōu)化器進行了微調(diào)。

從下表中可以看出，用于微調(diào)的計算量僅占訓練計算的一小部分。

作者根據(jù)模型的大小和微調(diào)任務的數(shù)量，在保留任務的性能上檢測了縮放的影響。

作者從對三種大小的PaLM模型（8B/62B/540B）進行實驗，從任務最少的混合開始，一次添加任務混合，然后再到任務最多的混合（CoT、Muffin、T0-SF 和 NIV2）。

作者發(fā)現(xiàn)，擴展指令微調(diào)后，模型大小和任務數(shù)量的擴展都會大大改善性能。

是的，繼續(xù)擴展指令微調(diào)就是最關(guān)鍵的要點！

不過，在282個任務之后，收益開始略微變小。

從下表中可以看出，對于三種大小的模型，多任務指令微調(diào)后，相比沒有微調(diào)時，性能有很大的提高，性能增益范圍從9.4%到15.5%。

其次，增加微調(diào)數(shù)量可以提高性能，盡管大部分的改進來自282個任務。

最后，將模型規(guī)模增加一個數(shù)量級（8B→62B或62B→540B）會顯著提高微調(diào)和非微調(diào)模型的性能。

為什么282個任務之后增益就變小了呢？有兩種解釋。

一是附加任務不夠多樣化，因此沒有為模型提供新知識。

二是多任務指令微調(diào)的大部分收益，是因為模型學習更好地表達了它在預訓練中已經(jīng)知道的知識，而282個以上的任務并沒有太大的幫助。

另外，作者還探討了在指令微調(diào)混合中包含思想鏈（CoT）數(shù)據(jù)的效果。

可以看出，F(xiàn)lan-PaLM在所有評估基準上都優(yōu)于PaLM。

不過令人驚訝的是，以前的指令微調(diào)方法（如FLAN，T0）顯著降低了non-CoT的性能。

對此的解決方案是，只需在微調(diào)混合中添加9個CoT數(shù)據(jù)集，就可以在所有評估中獲得更好的性能。

雖然思維鏈（Chain-of-Thought）prompting通常非常有效，但只能編寫少量樣本，而且零樣本CoT并不總是有效果。

而Google研究者的CoT微調(diào)顯著提高了零樣本推理能力，比如常識推理。

為了展示方法的通用性，研究人員訓練了T5、PaLM和U-PaLM。其中參數(shù)量的覆蓋范圍也非常廣，從8000萬到5400億。

結(jié)果證明，所有這些模型都得到了顯著提升。

在以往，開箱即用的預訓練語言模型可用性通常都很差，比如對輸入的prompt沒有反應。

Google的研究者要求人類評估者來評估開放式生成問題的“模型可用性”。

結(jié)果顯示，F(xiàn)lan-PaLM 的可用性比PaLM基礎(chǔ)模型要高79%。

此外，指令微調(diào)還補充了其他的模型適應技術(shù)，比如UL2R。

同樣的，F(xiàn)lan-U-PaLM取得了很多優(yōu)秀的結(jié)果。

論文地址：https://arxiv.org/abs/2210.11399

Google的另一起“翻車”事件

可以說，剛剛發(fā)生的這個劇情，既視感相當強了！

沒錯，就在10月19日，當GooglePixel的官方賬號試圖挖苦蘋果CEO庫克時，被網(wǎng)友抓包：是用iPhone發(fā)的推文……

顯然，這種事情早已不是第一次了。

2013年，T-Mobile的CEO就在Twitter上對三星Note 3贊不絕口，但用的是iPhone。

同樣是2013年，黑莓的創(chuàng)意總監(jiān)Alicia Keys在發(fā)布會上說，她已經(jīng)拋棄了自己之前的iPhone，換了黑莓Z10。隨后，就被發(fā)現(xiàn)用iPhone發(fā)推，甚至在被抓到后發(fā)推狡辯說是因為自己被黑了。

三星，也不例外：

而且，相比于Google的這次刪推，三星當時做得更加決絕：直接刪號！

看來，營銷課程有必要加上這樣的一條戒律了：如果你要推廣一個產(chǎn)品，請不要用競爭對手的產(chǎn)品來做。

這并不是一個難以傳授的信息，甚至還可以做得直白：在推銷其他產(chǎn)品時，手里請不要拿著iPhone。

關(guān)鍵詞： Google 谷歌又鬧大烏龍 Jeff Dean參與的新模型竟

直播更多》

浙江大學國際聯(lián)合商學院研究員盤和林：堅持“脫虛向?qū)崱痹鰪姅?shù)字經(jīng)濟發(fā)展原動力

浙江大學國際聯(lián)合商學院數(shù)字經(jīng)濟與金融...
浙江大學國際聯(lián)合商學院研究員盤和林：堅持“脫虛向?qū)崱痹鰪姅?shù)字經(jīng)濟發(fā)展原動力

浙江大學國際聯(lián)合商學院數(shù)字經(jīng)濟與金融...
整合信息技術(shù)優(yōu)勢南通打造“智慧農(nóng)業(yè)”助力鄉(xiāng)村振興

近日，在江蘇省南通市都市農(nóng)業(yè)公園，眾...
重慶首個搭載5G基站的無人飛艇成功試飛最大設計升空高度達300米

近日，重慶首個搭載5G基站的無人飛艇試...
世界上最大天文數(shù)碼相機在斯坦福直線加速器國家加速器實驗室亮相

世界上最大的天文數(shù)碼相機在美國能源部...
受捕蠅草對飛蟲觸碰刺激響應啟發(fā) 科研人員讓水凝膠做到“條件反射”

從中國科學院寧波材料技術(shù)與工程研究所...

關(guān)閉

欧美精品v日韩精品v国产精品_全免费a级毛片免费看不卡_91精品国产91热久久久久福利_成人毛片免费观看视频在线

環(huán)球焦點！谷歌又鬧大烏龍 Jeff Dean參與的新模型竟搞錯Hinton生日

推薦

中國人工智能發(fā)展進步迅猛正向人工智能強國不斷邁進

我國可再生能源發(fā)電總裝機突破11億千瓦比十年前增長近3倍

中國移動12582基地入選重慶首批全民數(shù)字素養(yǎng)與技能提升基地

云網(wǎng)一體新型基礎(chǔ)設施加速賦能千行百業(yè)數(shù)字化轉(zhuǎn)型

爭當高水平科技自立自強排頭兵山東走出一條科技創(chuàng)新支撐高質(zhì)量發(fā)展之路

強鏈延鏈補鏈杭州高新區(qū)（濱江）十年創(chuàng)新制勝

大運河文化“流”進校園博物館成青少年了解運河知識“第二課堂”

“師友計劃”來了！天津大學4618名本科新生全覆蓋

富滿油田累計生產(chǎn)油氣突破1000萬噸大關(guān) 我國超深層油氣邁入規(guī)模開發(fā)新階段

最新?研究發(fā)現(xiàn) 月球可能是由地球與火星大小的忒伊亞相撞形成的

直播更多》

浙江大學國際聯(lián)合商學院研究員盤和林：堅持“脫虛向?qū)崱痹鰪姅?shù)字經(jīng)濟發(fā)展原動力

浙江大學國際聯(lián)合商學院研究員盤和林：堅持“脫虛向?qū)崱痹鰪姅?shù)字經(jīng)濟發(fā)展原動力

整合信息技術(shù)優(yōu)勢南通打造“智慧農(nóng)業(yè)”助力鄉(xiāng)村振興

重慶首個搭載5G基站的無人飛艇成功試飛最大設計升空高度達300米

世界上最大天文數(shù)碼相機在斯坦福直線加速器國家加速器實驗室亮相

受捕蠅草對飛蟲觸碰刺激響應啟發(fā) 科研人員讓水凝膠做到“條件反射”

資訊更多》

焦點