每日精選AI研究論文及翻譯
最近,大型語言模型(LLMs)展示了在解決數學問題時顯著的推理能力。為了進一步提高這種能力,本研究提出了類似於人類學習過程的「從錯誤中學習」(LeMa)方法。考慮一位數學學生無法解決一個數學問題的情況,他將從自己所犯的錯誤中學習,並找出如何糾正。LeMa 模仿這種錯誤驅動的學習過程,通過 GPT-4 生成的錯誤-糾正數據對來微調 LLMs。具體來說,我們首先從各種LLMs中收集不準確的推理路徑,然後利用 GPT-4 作為「校正者」來(1)識別錯誤步驟,(2)解釋錯誤原因,以及(3)糾正錯誤並生成最終答案。實驗結果顯示 LeMa 的有效性:在五個主幹LLMs和兩個數學推理任務中,LeMa 相對於僅在 CoT 數據上進行微調,持續提高了性能。令人印象深刻的是,LeMa 也可以使專門的LLMs(如 WizardMath 和 MetaMath)受益,實現了在 GSM8K 上 85.4% 的 pass@1 準確率,以及在 MATH 上 27.1% 的準確率。這超越了在這些具有挑戰性任務上由非執行開源模型實現的 SOTA 性能。我們的代碼、數據和模型將在 https://github.com/microsoft/CodeT 上公開提供。
大型多模型展示出卓越的通用能力,能以零-shot方式執行多樣的多模任務。大規模基於網路的圖像-文本對對此成功至關重要,但存在著過多的噪音。最近的研究使用由標題生成模型合成的替代標題,並取得了顯著的基準表現。然而,我們的實驗揭示出在使用合成標題訓練的模型中存在顯著的可擴展性不足和世界知識損失問題,這些問題在最初的基準成功中被大部分掩蓋了。經過更仔細的檢查,我們確定根本原因是現有合成標題中過於簡化的語言結構和缺乏知識細節。為了提供更高質量和更具擴展性的多模預訓練數據,我們提出了CapsFusion,一個先進的框架,利用大型語言模型從基於網路的圖像-文本對和合成標題中整合和精煉信息。廣泛的實驗顯示,CapsFusion的標題在模型性能(例如,在COCO和NoCaps上的CIDEr分數分別提高了18.8和18.3)、樣本效率(比基準模型需要的計算量少了11-16倍)、世界知識深度和可擴展性方面展現出卓越的全面優勢。這些效果、效率和可擴展性優勢使CapsFusion成為未來大型多模模型訓練擴展的一個有前途的候選者。
基於神經網絡的計算機視覺系統通常建立在一個骨幹上,即預訓練或隨機初始化的特徵提取器。幾年前,默認選項是經過ImageNet訓練的卷積神經網絡。然而,近年來出現了許多使用不同算法和數據集預訓練的骨幹。儘管這種選擇的豐富性提高了各種系統的性能,但對於從業者來說,很難做出關於選擇哪個骨幹的明智決定。骨幹之戰(BoB)通過對一系列預訓練模型進行基準測試,包括視覺語言模型、通過自監督學習訓練的模型以及穩定擴散骨幹,涵蓋從分類到物體檢測再到OOD泛化等多樣的計算機視覺任務,從而使這一選擇變得更加容易。此外,BoB通過對1500多次訓練運行進行的全面分析,為研究界提供了推動計算機視覺發展的有益方向,通過揭示現有方法的優勢和劣勢。儘管視覺Transformer(ViTs)和自監督學習(SSL)越來越受歡迎,但我們發現,在我們考慮的模型中,以大型訓練集監督方式預訓練的卷積神經網絡在大多數任務中仍表現最佳。此外,在相同架構和相似大小的預訓練數據集上進行對照比較時,我們發現自監督學習骨幹具有很高的競爭力,這表明未來的工作應該使用先進的架構和更大的預訓練數據集進行自監督學習。我們公開了實驗的原始結果,以及允許研究人員在此處將他們自己的骨幹進行考驗的代碼:https://github.com/hsouri/Battle-of-the-Backbones
離線強化學習(RL)旨在利用預先收集的數據集找到近乎最優策略。在現實世界情境中,數據收集可能既昂貴又風險高;因此,當領域內數據有限時,離線RL變得特別具挑戰性。鑒於大型語言模型(LLMs)及其少樣本學習能力的最新進展,本文介紹了基於決策Transformer的通用框架,名為語言模型運動控制(LaMo),以有效利用預先訓練的語言模型(LMs)進行離線RL。我們的框架突出了四個關鍵組件:(1)使用順序預先訓練的LMs初始化決策Transformer,(2)採用LoRA微調方法,與全權重微調相對,以有效結合來自LMs的預先訓練知識和領域內知識,(3)使用非線性MLP轉換而非線性投影來生成嵌入,以及(4)在微調期間整合輔助語言預測損失,以穩定LMs並保留其在語言上的原始能力。實證結果表明LaMo在稀獎勵任務中實現了最先進的性能,並在稠密獎勵任務中拉近了基於值的離線RL方法與決策Transformer之間的差距。特別是,我們的方法在數據樣本有限的情境中展現出卓越的性能。我們的項目網站為https://lamo2023.github.io。
我們在一項公開的線上圖靈測試中評估了 GPT-4。表現最佳的 GPT-4 提示在 41% 的遊戲中通過,優於 ELIZA(27%)和 GPT-3.5(14%)設定的基準,但仍不及機會和人類參與者(63%)設定的基準。參與者的決策主要基於語言風格(35%)和社會情感特徵(27%),支持智能並不足以通過圖靈測試的觀點。參與者的人口統計資料,包括教育程度和對大型語言模型的熟悉程度,並未預測檢測率,這表明即使是深入了解系統並經常與之互動的人也可能容易受騙。儘管圖靈測試作為智能測試存在已知限制,我們認為它仍然具有評估自然交流和欺騙的相關性。具備偽裝成人類能力的 AI 模型可能對社會產生廣泛影響,我們分析了不同策略和標準對人類相似性的評判效果。
AI 開發者經常應用安全對齊程序來防止其 AI 系統被誤用。例如,在 Meta 發布 Llama 2-Chat 之前,這是一組經過微調的大型語言模型指令集,他們在安全培訓方面投入了大量資源,包括廣泛的紅隊測試和從人類反饋中學習的強化學習。然而,當攻擊者可以訪問模型權重時,安全培訓如何有效防範模型誤用仍不明朗。我們通過暗中微調 Llama 2-Chat 的公共權重來探討語言模型安全培訓的穩健性。我們採用低秩適應(LoRA)作為一種高效的微調方法。在每個模型不到 200 美元的預算和僅使用一個 GPU 的情況下,我們成功地撤銷了 7B、13B 和 70B 大小的 Llama 2-Chat 模型的安全培訓。具體來說,我們的微調技術顯著降低了模型拒絕遵循有害指令的速率。對於我們的 70B Llama 2-Chat 模型,在兩個拒絕基準測試中,我們實現了低於 1% 的拒絕率。我們的微調方法保留了整體性能,通過將我們的微調模型與 Llama 2-Chat 在兩個基準測試中進行比較來進行驗證。此外,我們展示了我們的模型生成的一些有害輸出。盡管目前模型的風險範圍存在相當大的不確定性,但未來模型可能具有更危險的能力,包括入侵關鍵基礎設施、創造危險的生物武器,或自主複製並適應新環境。我們表明,暗中微調是實際且有效的,因此主張評估微調風險應該是釋放模型權重風險評估的核心部分。
擴散模型是一類生成模型,能在圖像合成、視頻生成和分子設計等任務中取得突破性表現。儘管具有強大功能,但其效率,特別是在反去噪過程中,由於收斂速度緩慢和計算成本高而面臨挑戰。在這項工作中,我們提出了一種利用連續動態系統來設計新型去噪網絡的方法,以改進擴散模型,使其更節省參數、收斂速度更快,並表現出更高的噪聲韌性。通過對去噪概率擴散模型進行實驗,我們的框架使用的參數量約為標準去噪擴散概率模型(DDPMs)中U-Net的四分之一,浮點運算(FLOPs)的30%。此外,我們的模型在相同條件下的推理速度比基準模型快70%,同時收斂到更優質的解決方案。
龐大的文本語料庫是語言模型的支柱。然而,我們對這些語料庫的內容了解有限,包括一般統計數據、質量、社會因素,以及包含的評估數據(污染)。在這項工作中,我們提出了「我的大數據裡有什麼?」(WIMBD),這是一個平台和一組十六種分析方法,讓我們能夠揭示並比較大型文本語料庫的內容。WIMBD基於兩種基本能力 -- 計數和搜索 -- 以規模化的方式進行,這使我們能夠在標準計算節點上分析超過35TB的數據。我們將WIMBD應用於用於訓練流行語言模型的十個不同語料庫,包括C4、The Pile和RedPajama。我們的分析揭示了有關這些語料庫的幾個令人驚訝且以前未記錄的發現,包括重複、合成和低質量內容的高普及率、個人可識別信息、有毒語言,以及基準污染。例如,我們發現RedPajama和LAION-2B-en中約有50%的文檔是重複的。此外,用於基準模型的幾個數據集受到重要基準(包括Winograd Schema Challenge以及GLUE和SuperGLUE的部分)的污染。我們開源了WIMBD的代碼和藝術品,以提供新的基於文本的語料庫的標準評估,並鼓勵進行更多分析和透明度:github.com/allenai/wimbd。
最近,影片生成在實現逼真結果方面取得了顯著進展。然而,現有的人工智慧生成的影片通常是非常短的片段("shot-level"),描繪單一場景。為了呈現一個連貫的長影片("story-level"),希望能夠在不同片段之間實現創意過渡和預測效果。本文提出了一個短到長影片擴散模型,SEINE,專注於生成過渡和預測。其目標是生成具有流暢且具有創意過渡的高質量長影片,其中包括場景之間的平滑過渡和不同長度的shot-level影片。具體而言,我們提出了一個基於隨機遮罩的影片擴散模型,可以根據文本描述自動生成過渡。通過提供不同場景的圖像作為輸入,結合基於文本的控制,我們的模型生成確保連貫性和視覺質量的過渡影片。此外,該模型可以輕鬆擴展到各種任務,如圖像到影片動畫和自回歸影片預測。為了對這一新的生成任務進行全面評估,我們提出了三個評估標準,用於流暢和具有創意的過渡:時間一致性、語義相似性和影片-文本語義對齊。大量實驗驗證了我們的方法相對於現有的生成過渡和預測方法的有效性,從而實現了創建story-level長影片的可能性。項目頁面:https://vchitect.github.io/SEINE-project/。
為了處理新的句子,語言模型(LMs)必須具有組合泛化能力 - 將熟悉的元素以新的方式組合。模型結構的哪些方面促進了組合泛化?著重於Transformer,我們測試了一個假設,受最近的理論和實證工作啟發,即當Transformer更深(具有更多層)時,它們在組合泛化方面的泛化能力更強。由於僅僅增加層數會增加總參數數量,混淆了深度和大小,我們構建了三類模型,以深度和寬度相互折衷,使總參數數量保持恆定(分別為4100萬、1.34億和3.74億參數)。我們對所有模型進行語言模型的預訓練,並在測試組合泛化的任務上進行微調。我們報告了三個主要結論:(1)在微調後,較深的模型在超出分布範圍的泛化能力比較較淺的模型更好,但額外層數的相對好處迅速減少;(2)在每個系列中,較深的模型展現出更好的語言建模性能,但回報同樣在減少;(3)深度對於組合泛化的好處不能僅歸因於在語言建模或分布範圍內數據上的更好表現。
ChipNeMo旨在探索大型語言模型(LLMs)在工業芯片設計中的應用。我們不直接部署現成的商用或開源LLMs,而是採用以下領域適應技術:自定義分詞器、領域適應持續預訓練、帶有特定領域指令的監督微調(SFT)和領域適應檢索模型。我們在三個選定的芯片設計LLM應用上評估這些方法:工程助理聊天機器人、EDA腳本生成以及錯誤摘要和分析。我們的結果顯示,這些領域適應技術使LLM在三個評估應用中的性能顯著提升,使得在各種設計任務上可以實現高達5倍的模型尺寸減小,並實現類似或更好的性能。我們的研究結果還表明,我們目前的結果與理想結果之間仍有改進空間。我們相信,進一步研究領域適應的LLM方法將有助於在未來縮小這一差距。
在發展先進的以LLM為基礎的智能代理時,LLM-based代理智能的自動評估至關重要。儘管已經付出相當大的努力來開發人工標註的評估數據集,例如AlpacaEval,但現有技術成本高、耗時且缺乏適應性。本文受到流行的語言遊戲“誰是臥底”的啟發,提出使用猜詞遊戲來評估LLM的智能表現。給定一個詞,要求LLM描述這個詞並根據自己和其他玩家的描述來確定其身份(臥底或非臥底)。理想情況下,一個先進的代理應該具備能夠使用積極描述準確描述給定詞的能力,同時在保守描述中最大程度地引起混淆,從而增強其在遊戲中的參與度。為此,我們首先開發了DEEP來評估LLM的表達和偽裝能力。DEEP要求LLM以積極和保守模式描述一個詞。然後,我們引入了SpyGame,這是一個互動式多代理框架,旨在通過參與競爭性基於語言的棋盤遊戲來評估LLM的智能。SpyGame融入多代理互動,要求目標LLM具備語言技能和戰略思維,提供對LLM的人類般認知能力和在複雜溝通情況下的適應能力更全面的評估。所提出的評估框架非常容易實施。我們從多個來源、領域和語言中收集了詞彙,並使用所提出的評估框架進行實驗。廣泛的實驗表明,所提出的DEEP和SpyGame有效地評估了各種LLM的能力,捕捉了它們適應新情況並從事戰略性溝通的能力。