環(huán)球焦點!谷歌又鬧大烏龍 Jeff Dean參與的新模型竟搞錯Hinton生日
最近,谷歌研究員發(fā)布了關(guān)于指令微調(diào)的最新工作!然而卻宣傳圖中出現(xiàn)了可笑的烏龍。幾個小時之前,谷歌大腦的研究員們非常開心地曬出了自己最新的研究成果:“我們新開源的語言模型Flan-T5,在對1,800多種語言的任務進行指令微調(diào)后,顯著提高了prompt和多步推理的能力。”
然而,就在這張精心制作的“宣傳圖”上,竟藏著一個讓人哭笑不得的bug!
(資料圖片僅供參考)
請注意看Geoffrey Hinton的出生日期:
但實際上,Hinton出生于1947年……
雖然沒有必然聯(lián)系,但是Google自己的模型,竟然會把自家大佬的生日搞錯?
馬庫斯同志看完直接就驚了:你們Google,沒人負責審核的嗎……
理論上,這篇擁有31位作者,外加Jeff Dean這種大佬參與的論文,不應該發(fā)生這種“低級錯誤”才對啊。
“復制”的時候“打錯了”而已!
很快,論文的共同一作就在馬庫斯的推文下面進行了回復:“我們都知道,模型的輸出并不總是符合事實。我們正在進行負責任的AI評估,一旦有了結(jié)果,我們將立即更新論文。”
沒過多久,這位作者刪除了上面那條推文,并更新留言稱:“這只是在把模型的輸出復制到Twitter上時,『打錯了』而已。”
對此,有網(wǎng)友調(diào)侃道:“不好意思,你能不能給我翻譯翻譯,什么叫『復制』來著?”
當然,在查看原文之后可以發(fā)現(xiàn),“圖1”所示的生日,確實沒錯。
至于在宣傳圖中是如何從“1947”變成“1963”的,大概只有做圖的那位朋友自己知道了。
隨后,馬庫斯也刪除了自己的這條推文。
世界重歸平靜,就像什么也沒有發(fā)生一樣。
只留下Google研究員自己推文下面的這條在風中飄搖——
擴展指令微調(diào)語言模型
既然誤會解除了,我們就讓話題重新回到論文本身上來吧。
去年,Google推出了一個參數(shù)量只有1370億的微調(diào)語言網(wǎng)絡FLAN(fine-tuned language net)。
https://arxiv.org/abs/2109.01652
FLAN是Base LM的指令調(diào)優(yōu)(instruction-tuned)版本。指令調(diào)優(yōu)管道混合了所有數(shù)據(jù)集,并從每個數(shù)據(jù)集中隨機抽取樣本。
研究人員稱,這種指令調(diào)節(jié)(instruction tuning)通過教模型如何執(zhí)行指令描述的任務來提高模型處理和理解自然語言的能力。
結(jié)果顯示,在許多有難度的基準測試中,F(xiàn)LAN的性能都大幅超過了GPT-3。
這次,Google將語言模型進行拓展之后,成功刷新了不少基準測試的SOTA。
比如,在1.8K任務上進行指令微調(diào)的Flan-PaLM 540B,性能明顯優(yōu)于標準的PALM 540B(平均 + 9.4%),并且在5-shot的MMLU上,F(xiàn)lan-PaLM也實現(xiàn)了75.2%的準確率。
此外,作者還在論文中公開發(fā)布Flan-T5檢查點。即便是與更大的模型(如PaLM 62B)相比,F(xiàn)lan-T5也能實現(xiàn)強大的小樣本性能。
論文地址:https://arxiv.org/abs/2210.11416
總結(jié)來說,作者通過以下三種方式擴展了指令微調(diào):
擴展到540B模型
擴展到1.8K的微調(diào)任務
在思維鏈(CoT)數(shù)據(jù)上進行微調(diào)
作者發(fā)現(xiàn)具有上述方面的指令微調(diào)顯著提高了各種模型類(PaLM、T5、U-PaLM)、prompt設置(zero-shot、few-shot、CoT)和評估基準(MMLU、BBH、 TyDiQA、MGSM、開放式生成)。
這次的微調(diào)數(shù)據(jù)包括473個數(shù)據(jù)集、146個任務類別和1,836個總?cè)蝿铡?/p>
作者是通過結(jié)合之前工作中的四種混合(Muffin、T0-SF、NIV2 和 CoT),縮放(scale)成了下圖中的1836個微調(diào)任務。
在研究中,微調(diào)數(shù)據(jù)格式如下圖這樣組合。研究者在有樣本/無樣本、有思想鏈/無思想鏈的情況下進行了微調(diào)。要注意的是,其中只有九個思維鏈(CoT)數(shù)據(jù)集使用CoT格式。
第四種微調(diào)數(shù)據(jù)的混合涉及CoT注釋,作者用它來探索CoT注釋的微調(diào)是否可以提高看不見的推理任務的性能。
作者從先前的工作中創(chuàng)建了9個數(shù)據(jù)集的新混合,然后由人類評估者手動為訓練語料庫編寫CoT注釋。這9個數(shù)據(jù)集包括算數(shù)推理、多跳推理(multi-hop reasoning)和自然語言推理等。
作者在廣泛的模型中應用了指令微調(diào),包括T5、PaLM和U-PaLM。對于每個模型,作者都采用了相同的訓練過程,使用恒定的學習率,并使用Adafactor優(yōu)化器進行了微調(diào)。
從下表中可以看出,用于微調(diào)的計算量僅占訓練計算的一小部分。
作者根據(jù)模型的大小和微調(diào)任務的數(shù)量,在保留任務的性能上檢測了縮放的影響。
作者從對三種大小的PaLM模型(8B/62B/540B)進行實驗,從任務最少的混合開始,一次添加任務混合,然后再到任務最多的混合(CoT、Muffin、T0-SF 和 NIV2)。
作者發(fā)現(xiàn),擴展指令微調(diào)后,模型大小和任務數(shù)量的擴展都會大大改善性能。
是的,繼續(xù)擴展指令微調(diào)就是最關(guān)鍵的要點!
不過,在282個任務之后,收益開始略微變小。
從下表中可以看出,對于三種大小的模型,多任務指令微調(diào)后,相比沒有微調(diào)時,性能有很大的提高,性能增益范圍從9.4%到15.5%。
其次,增加微調(diào)數(shù)量可以提高性能,盡管大部分的改進來自282個任務。
最后,將模型規(guī)模增加一個數(shù)量級(8B→62B或62B→540B)會顯著提高微調(diào)和非微調(diào)模型的性能。
為什么282個任務之后增益就變小了呢?有兩種解釋。
一是附加任務不夠多樣化,因此沒有為模型提供新知識。
二是多任務指令微調(diào)的大部分收益,是因為模型學習更好地表達了它在預訓練中已經(jīng)知道的知識,而282個以上的任務并沒有太大的幫助。
另外,作者還探討了在指令微調(diào)混合中包含思想鏈(CoT)數(shù)據(jù)的效果。
可以看出,F(xiàn)lan-PaLM在所有評估基準上都優(yōu)于PaLM。
不過令人驚訝的是,以前的指令微調(diào)方法(如FLAN,T0)顯著降低了non-CoT的性能。
對此的解決方案是,只需在微調(diào)混合中添加9個CoT數(shù)據(jù)集,就可以在所有評估中獲得更好的性能。
雖然思維鏈(Chain-of-Thought)prompting通常非常有效,但只能編寫少量樣本,而且零樣本CoT并不總是有效果。
而Google研究者的CoT微調(diào)顯著提高了零樣本推理能力,比如常識推理。
為了展示方法的通用性,研究人員訓練了T5、PaLM和U-PaLM。其中參數(shù)量的覆蓋范圍也非常廣,從8000萬到5400億。
結(jié)果證明,所有這些模型都得到了顯著提升。
在以往,開箱即用的預訓練語言模型可用性通常都很差,比如對輸入的prompt沒有反應。
Google的研究者要求人類評估者來評估開放式生成問題的“模型可用性”。
結(jié)果顯示,F(xiàn)lan-PaLM 的可用性比PaLM基礎(chǔ)模型要高79%。
此外,指令微調(diào)還補充了其他的模型適應技術(shù),比如UL2R。
同樣的,F(xiàn)lan-U-PaLM取得了很多優(yōu)秀的結(jié)果。
論文地址:https://arxiv.org/abs/2210.11399
Google的另一起“翻車”事件
可以說,剛剛發(fā)生的這個劇情,既視感相當強了!
沒錯,就在10月19日,當GooglePixel的官方賬號試圖挖苦蘋果CEO庫克時,被網(wǎng)友抓包:是用iPhone發(fā)的推文……
顯然,這種事情早已不是第一次了。
2013年,T-Mobile的CEO就在Twitter上對三星Note 3贊不絕口,但用的是iPhone。
同樣是2013年,黑莓的創(chuàng)意總監(jiān)Alicia Keys在發(fā)布會上說,她已經(jīng)拋棄了自己之前的iPhone,換了黑莓Z10。隨后,就被發(fā)現(xiàn)用iPhone發(fā)推,甚至在被抓到后發(fā)推狡辯說是因為自己被黑了。
三星,也不例外:
而且,相比于Google的這次刪推,三星當時做得更加決絕:直接刪號!
看來,營銷課程有必要加上這樣的一條戒律了:如果你要推廣一個產(chǎn)品,請不要用競爭對手的產(chǎn)品來做。
這并不是一個難以傳授的信息,甚至還可以做得直白:在推銷其他產(chǎn)品時,手里請不要拿著iPhone。
關(guān)鍵詞: Google 谷歌又鬧大烏龍 Jeff Dean參與的新模型竟
推薦
-
中國人工智能發(fā)展進步迅猛 正向人工智能強國不斷邁進
近日,意大利知名經(jīng)濟學家、國際問題專家姜·埃·瓦洛里在歐洲媒體《現(xiàn)代外交》連續(xù)刊文稱,中國人工智...
來源:科技日報 -
我國可再生能源發(fā)電總裝機突破11億千瓦 比十年前增長近3倍
我國可再生能源發(fā)電總裝機突破11億千瓦,比十年前增長了近3倍,占世界可再生能源裝機總量的30%以上。水...
來源:科技日報 -
中國移動12582基地 入選重慶首批全民數(shù)字素養(yǎng)與技能提升基地
日前,中共重慶市委網(wǎng)絡安全和信息化委員會辦公室公布重慶市全民數(shù)字素養(yǎng)與技能提升基地(首批)名單,中...
來源:人民郵電報 -
云網(wǎng)一體新型基礎(chǔ)設施 加速賦能千行百業(yè)數(shù)字化轉(zhuǎn)型
近年來,產(chǎn)業(yè)界按照網(wǎng)是基礎(chǔ)、云為核心、網(wǎng)隨云動、云網(wǎng)一體的思路不斷探索實踐。借助于云網(wǎng)一體的基礎(chǔ)...
來源:人民郵電報 -
爭當高水平科技自立自強排頭兵 山東走出一條科技創(chuàng)新支撐高質(zhì)量發(fā)展之路
10年歷程,山東走出了一條科技創(chuàng)新支撐高質(zhì)量發(fā)展之路。該省堅持把創(chuàng)新作為引領(lǐng)發(fā)展的第一動力,將加強...
來源:科技日報 -
強鏈延鏈補鏈 杭州高新區(qū)(濱江)十年創(chuàng)新制勝
杭州高新區(qū)(濱江)正進一步強鏈延鏈補鏈,全力打造視覺智能、網(wǎng)絡通信、智能裝備、生命健康等重點產(chǎn)業(yè)鏈...
來源:科技日報 -
大運河文化“流”進校園 博物館成青少年了解運河知識“第二課堂”
大運河孕育了豐富的文化遺產(chǎn)。以刀為筆、以玉為紙的玉雕,是揚州運河文化的精髓之一。‘天下玉,揚...
來源:科技日報 -
“師友計劃”來了!天津大學4618名本科新生全覆蓋
原本研究生專屬的一對一導師制,現(xiàn)在本科生也可以享受了。日前,天津大學發(fā)布了《關(guān)于加強跨學院大類本...
來源:科技日報 -
富滿油田累計生產(chǎn)油氣突破1000萬噸大關(guān) 我國超深層油氣邁入規(guī)模開發(fā)新階段
10月9日,中國石油塔里木油田公司富滿油田累計生產(chǎn)油氣突破1000萬噸大關(guān),其中原油867萬噸、天然氣16億...
來源:科技日報 -
最新?研究發(fā)現(xiàn) 月球可能是由地球與火星大小的忒伊亞相撞形成的
英國科學家借助超級計算機,模擬了地球和一顆名為忒伊亞的原行星碰撞后可能產(chǎn)生的影響,得出結(jié)論稱,月...
來源:科技日報
直播更多》
-
浙江大學國際聯(lián)合商學院研究員盤和林:堅持“脫虛向?qū)崱痹鰪姅?shù)字經(jīng)濟發(fā)展原動力
浙江大學國際聯(lián)合商學院數(shù)字經(jīng)濟與金融...
-
浙江大學國際聯(lián)合商學院研究員盤和林:堅持“脫虛向?qū)崱痹鰪姅?shù)字經(jīng)濟發(fā)展原動力
浙江大學國際聯(lián)合商學院數(shù)字經(jīng)濟與金融...
-
整合信息技術(shù)優(yōu)勢 南通打造“智慧農(nóng)業(yè)”助力鄉(xiāng)村振興
近日,在江蘇省南通市都市農(nóng)業(yè)公園,眾...
-
重慶首個搭載5G基站的無人飛艇成功試飛 最大設計升空高度達300米
近日,重慶首個搭載5G基站的無人飛艇試...
-
世界上最大天文數(shù)碼相機 在斯坦福直線加速器國家加速器實驗室亮相
世界上最大的天文數(shù)碼相機在美國能源部...
-
受捕蠅草對飛蟲觸碰刺激響應啟發(fā) 科研人員讓水凝膠做到“條件反射”
從中國科學院寧波材料技術(shù)與工程研究所...
資訊更多》
焦點
- 大氣污染治理取得里程碑式突破 藍天白云成北京幸福底色
- 打造浙江“第一算力引擎” 聯(lián)通云四個骨干云池正式上線
- 山東全社會研發(fā)投入居全國第5 同比增長15.6%
- 科創(chuàng)成就舉世矚目 在華外專點贊中國科技創(chuàng)新成就
- 西北農(nóng)林科技大學科學家 發(fā)現(xiàn)調(diào)節(jié)植物生長的氮營養(yǎng)“開關(guān)”
- 首筆供應鏈投行ABS 近日在深交所成功發(fā)行
- 成功投產(chǎn)運營一周年 日照港集裝箱碼頭交出亮麗答卷
- 俄羅斯秋明國立大學提出一種新方法 可將有機廢物轉(zhuǎn)化為環(huán)保生物炭
- 我國知識產(chǎn)權(quán)保護社會滿意度提升至80.61分 高價值發(fā)明專利審查周期壓減至13個月
- 緩解中小微企業(yè)融資難 河北為實體經(jīng)濟發(fā)展引入“金融活水”