每日精選AI研究論文及翻譯
最近在大型語言模型(LLMs)方面取得的突破集中在少數數據豐富的語言上。如何擴大突破性成果的使用範圍,超越第一類語言呢?我們的研究引入了Aya,一個大規模多語言生成語言模型,可以遵循101種語言的指令,其中超過50%被視為資源較少。Aya在大多數任務上表現優於mT0和BLOOMZ,同時涵蓋了兩倍數量的語言。我們引入了廣泛的新評估套件,擴展了跨99種語言的多語言評估的最新技術,包括區分性和生成性任務、人類評估以及模擬勝率,涵蓋了留存任務和分發性能。此外,我們對最佳微調混合組成、數據修剪以及模型的毒性、偏見和安全性進行了詳細調查。我們在https://hf.co/CohereForAI/aya-101上開源我們的指令數據集和模型。
與電腦的自主互動一直是一個具有巨大潛力的長期挑戰,近年來大型語言模型(LLMs)的大量應用顯著加速了建立數位代理人的進展。然而,大多數這些代理人被設計來與狹窄領域進行互動,例如特定軟體或網站。這種狹隘的焦點限制了它們應用於一般電腦任務的能力。為此,我們引入了OS-Copilot,一個建立通用代理人框架,能夠與作業系統(OS)中的全面元素進行接口連接,包括網頁、程式碼終端、檔案、多媒體和各種第三方應用程式。我們使用OS-Copilot來創建FRIDAY,一個用於自動化一般電腦任務的自我改進實體代理人。在GAIA通用AI助手基準測試中,FRIDAY的表現優於先前方法35%,展示了對未見應用的強大泛化能力,通過從先前任務中積累的技能。我們還提供了數字和量化證據,顯示FRIDAY學會在Excel和Powerpoint上進行控制和自我改進,而監督極少。我們的OS-Copilot框架和實證結果為未來研究提供了基礎和見解,以建立更具能力和通用性的電腦代理人。
大型語言模型(LLMs)在化學應用中取得了令人矚目的進展,包括分子性質預測、分子生成、實驗方案設計等。然而,社群缺乏專門為化學設計的基於對話的模型。挑戰在於大多數化學數據和科學知識主要存儲在結構化數據庫中,直接使用這些結構化數據會影響模型保持連貫對話的能力。為應對此問題,我們開發了一種新穎的基於模板的指令構建方法,將結構化知識轉換為純對話,使其適合語言模型訓練。通過利用這種方法,我們開發了ChemLLM,這是首個專為化學而設的大型語言模型,能夠在化學領域執行各種任務並實現流暢的對話互動。ChemLLM在化學的三個主要任務,即命名轉換、分子標題和反應預測上擊敗了GPT-3.5,並在其中兩個任務上超越了GPT-4。值得注意的是,儘管主要在以化學為中心的語料庫上進行訓練,ChemLLM還展現了對相關數學和物理任務的出色適應能力。此外,ChemLLM在化學領域的專業NLP任務中表現出色,如文獻翻譯和化學信息學編程。ChemLLM為化學研究開辟了新的探索途徑,而我們將結構化化學知識整合到對話系統的方法為在各種科學領域開發LLMs設定了新的前沿。代碼、數據集和模型權重可在hf.co/AI4Chem/ChemLLM-7B-Chat公開訪問。
基於專家混合(MoE)架構的大型語言模型(LLMs)在各種任務上展現出令人期待的性能。然而,在資源受限的環境中運行這些模型,即 GPU 記憶體資源不充足的情況下,由於模型大小巨大,是一項具有挑戰性的任務。現有的將模型權重卸載到 CPU 記憶體的系統,面臨著在 CPU 與 GPU 之間頻繁移動數據所帶來的顯著開銷。本文提出了一種名為 Fiddler 的資源高效推論引擎,用於 MoE 模型的 CPU-GPU 協調。Fiddler 的關鍵思想是利用 CPU 的計算能力來最小化 CPU 與 GPU 之間的數據移動。我們的評估顯示,Fiddler 能夠在單個 GPU 上以每秒超過 3 個標記的速度運行未壓縮的 Mixtral-8x7B 模型,該模型參數超過 90GB,這顯示相對於現有方法,有了一個數量級的改進。Fiddler 的程式碼可在以下網址公開獲取:https://github.com/efeslab/fiddler
視覺語言模型(VLMs)展示了在各種任務中的出色能力,從邏輯推理到視覺理解。這打開了與世界進行更豐富互動的大門,例如機器人控制。然而,VLMs僅生成文本輸出,而機器人控制和其他空間任務需要輸出連續坐標、動作或軌跡。我們如何使VLMs能夠處理這些設置,而無需在特定任務數據上進行微調呢? 在本文中,我們提出了一種新穎的視覺提示方法,稱為Prompting with Iterative Visual Optimization(PIVOT),將任務視為迭代視覺問答。在每個迭代中,圖像都會被標註為VLM可以參考的提案的視覺表示(例如候選機器人動作、定位或軌跡)。然後,VLM選擇最適合該任務的提案。這些提案會被迭代地改進,使VLM最終能夠找到最佳答案。我們在現實世界的機器人導航、從圖像中進行現實世界操作、模擬中的指令遵循以及其他空間推理任務(如定位)上研究了PIVOT。我們發現,或許令人驚訝的是,我們的方法實現了無需任何機器人訓練數據的零-shot控制機器人系統、在各種環境中進行導航以及其他功能。儘管目前的性能仍有很大提升空間,但我們的工作突顯了這種新模式的潛力和限制,展示了在機器人和空間推理領域中實現Internet-Scale VLMs的一種有前途的方法。網站:pivot-prompt.github.io 和 HuggingFace:https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo.
笑聲是人類語音中最具表達力和自然的一個方面,傳達情感、社交暗示和幽默。然而,大多數文本轉語音(TTS)系統缺乏產生逼真和適當笑聲的能力,限制了其應用和使用者體驗。雖然先前有一些工作致力於生成自然笑聲,但在控制笑聲的時機和變化方面存在不足。在本研究中,我們提出ELaTE,一種零-shot TTS,可以基於短音頻提示生成任何說話者的自然笑聲語音,並精確控制笑聲的時機和表達。具體而言,ELaTE通過音頻提示模仿聲音特徵,文本提示指示生成語音的內容,輸入控制笑聲表達,可以是笑聲的開始和結束時間,或包含要模仿的笑聲的附加音頻提示。我們基於條件流匹配的零-shot TTS基礎開發我們的模型,並通過笑聲檢測器的幀級表示進行微調作為額外條件。通過將小規模笑聲條件數據與大規模預訓練數據簡單混合的方案,我們展示了預訓練的零-shot TTS模型可以輕鬆進行微調,以生成具有精確可控性的自然笑聲,而不會喪失預訓練的零-shot TTS模型的質量。通過評估,我們展示ELaTE可以生成笑聲語音,其質量和可控性明顯優於傳統模型。請參見https://aka.ms/elate/ 以查看演示樣本。
隨著人工智慧模型的尺寸增長,神經網絡的尺度定律已成為一個關鍵工具,用於預測大型模型在增加容量和原始(人類或自然)訓練數據的規模時的改進。然而,流行模型的廣泛使用意味著在線數據和文本的生態系統將逐漸包含越來越多的合成數據。在本文中,我們探討:當合成數據進入訓練語料庫時,尺度定律將如何改變?未來的模型仍將改進,還是注定將退化至完全(模型)崩潰?我們通過尺度定律的觀點發展了一個模型崩潰的理論框架。我們發現了廣泛的衰變現象,分析了尺度損失、隨世代數量變化的偏移尺度、技能的“反學習”以及在混合人類和合成數據時的理解。我們的理論得到了通過對一個算術任務上的變壓器和使用大型語言模型Llama2進行文本生成的大規模實驗的驗證。
視覺條件語言模型(VLMs)在視覺對話、場景理解和機器人任務規劃等應用中得到日益廣泛的應用;這種應用推動了眾多新模型的出現,如LLaVa、InstructBLIP和PaLI-3。儘管有大量新模型問世,但對於圖像預處理、架構和優化等關鍵設計決策尚未深入探討,這使得理解模型性能所受影響因素變得具有挑戰性 - 這種挑戰進一步複雜化了缺乏客觀、一致性評估的情況。為了填補這些空白,我們首先編制了一系列標準化評估,涵蓋視覺問答、從語言中定位物體以及探測幻覺等目標挑戰集,這些評估提供了對VLM能力的校準、細緻洞察。其次,我們嚴謹地研究VLMs沿著關鍵設計軸,包括預訓練視覺表示和量化使用基礎語言模型與指導調整語言模型之間的權衡等方面。我們將分析與三項資源貢獻相結合:(1)用於評估VLMs的統一框架,(2)優化的、靈活的VLM訓練代碼,以及(3)所有模型的檢查點,包括一系列在7-13B規模上嚴格優於InstructBLIP和LLaVa v1.5的VLMs家族,後者是開源VLMs中的最新技術。
為了透過持續預訓練來提高語言模型在數學推理方面的熟練度,我們引入了一種新穎的策略,利用基礎語言模型進行自主數據選擇。與傳統的監督微調或使用人工標註數據訓練的分類器不同,我們的方法利用元提示語言模型作為零-shot驗證器,自主評估並選擇高質量的數學內容,並釋放了涵蓋超過200GB數據的經過精心挑選的開源AutoMathText數據集。為了展示我們方法的有效性,我們持續對一個擁有7B參數的Mistral語言模型在AutoMathText數據集上進行預訓練,實現了在MATH數據集上下游性能顯著提升,與先前的持續預訓練工作相比,令token數量大幅減少。我們的方法展示了預訓練token效率比基線提高了2倍,突顯了我們方法在增強模型數學推理能力方面的潛力。AutoMathText數據集可在https://huggingface.co/datasets/math-ai/AutoMathText找到。代碼可在https://github.com/yifanzhang-pro/AutoMathText找到。
專家混合(Mixture of Experts,MoE)模型已成為降低大型語言模型計算成本的主要解決方案。在這項工作中,我們分析了它們的擴展變數範圍,並探討其擴展性質。具體來說,我們引入了一個新的超參數,即粒度(granularity),通過調整它,可以精確控制專家的大小。基於此,我們建立了細粒度MoE的擴展規律,考慮了訓練標記數量、模型大小和粒度。利用這些規律,我們為給定計算預算推導出最佳的訓練配置。我們的研究結果不僅顯示MoE模型始終優於密集Transformer,還凸顯了在擴大模型大小和訓練預算的情況下,密集和MoE模型之間的效率差距擴大。此外,我們證明,在幾乎任何計算預算下,將MoE中專家的大小設置為與前向傳播層相同的常見做法並不是最佳選擇。
在這份研究中,我們探討了回應長度上的獎勵破解問題,這是在從人類反饋中的強化學習(RLHF)中出現的挑戰,在LLMs上。來自LLMs的格式良好、冗長但不太有幫助的回應往往可以欺騙LLMs甚至人類評估者以獲得高分。同樣的問題也存在於RL中的某些獎勵模型。為了應對訓練和評估中的挑戰,我們建立了一個更可靠的評估協議,用於比較不同的訓練配置,該協議檢查了通過變化訓練超參數獲得的LLM評估分數和回應長度之間的權衡。基於這種評估,我們進行了大規模研究,結果揭示了在減輕長度偏差方面在RL中使用的超參數和技巧的有效性。我們進一步提議通過共同訓練兩個線性頭部在共享特徵表示上來改進獎勵模型,以預測獎勵,其中一個頭部訓練以與長度相關,另一個頭部訓練以與長度不相關,因此更專注於實際內容。然後我們在RL中丟棄長度頭部以防止對長度的獎勵破解。實驗表明,我們的方法幾乎消除了獎勵與長度的相關性,並顯著改善了獲得的策略。
我們提出了LiRank,這是LinkedIn的一個大規模排名框架,將最先進的建模架構和優化方法應用於生產。我們揭示了幾項建模改進,包括Residual DCN,它在著名的DCNv2架構中添加了注意力和殘差連接。我們分享了將SOTA架構組合和調整以創建統一模型的見解,包括Dense Gating、Transformers和Residual DCN。我們還提出了用於校準的新技術,並描述了我們如何將基於深度學習的探索/利用方法應用於生產。為了實現有效的生產級大型排名模型服務,我們詳細介紹了如何使用量化和詞彙壓縮來訓練和壓縮模型。我們提供了有關Feed排名、工作推薦和廣告點擊率(CTR)預測等大規模用例的部署設置的詳細信息。我們通過闡明最有效的技術方法,總結了從各種A/B測試中獲得的經驗教訓。這些想法已經在LinkedIn各個方面帶來了相對指標的改善:Feed中會員會話增加了+0.5%,工作搜索和推薦的合格工作申請增加了+1.76%,廣告CTR增加了+4.3%。我們希望這項工作能為有興趣利用大規模深度排名系統的從業者提供實用見解和解決方案。
我們提出了GALA3D,一種具有佈局引導控制的生成式3D高斯模型,用於有效的組合式文本轉3D生成。我們首先利用大型語言模型(LLMs)生成初始佈局,並引入了一種佈局引導的3D高斯表示法,用於具有自適應幾何約束的3D內容生成。然後,我們提出了一種對象-場景組合優化機制,搭配條件擴散,共同生成具有一致幾何、紋理、比例和準確對象間交互作用的逼真3D場景,同時調整從LLMs中提取的粗略佈局先驗,使其與生成的場景相符。實驗表明,GALA3D是一個用戶友好的端到端框架,可用於最先進的場景級3D內容生成和可控編輯,同時確保場景中對象級實體的高保真度。源代碼和模型將在https://gala3d.github.io/ 上提供。
自我對齊是降低人工標註成本並確保模型能力的有效方法。然而,大多數當前方法在單輪中完成數據收集和訓練步驟,可能忽略了自我對齊模型不斷提升的能力。這帶來一個關鍵問題:如果我們進行多次引導自我對齊,這樣的策略是否能提升模型性能或導致快速退化?在本文中,我們的開拓性探索深入研究了引導自我對齊對大型語言模型的影響。我們的研究結果顯示,通過確保從上下文學習中獲得數據多樣性,引導自我對齊明顯優於單輪方法。為了進一步發揮引導的能力,我們研究並調整了數據的訓練順序,從而提高了模型的性能。基於這些發現,我們提出了Step-On-Feet Tuning(SOFT),利用模型持續增強的少樣本能力來提升零樣本或一樣本的性能。基於由易到難的訓練配方,我們提出了SOFT+,進一步提升了自我對齊的性能。我們的實驗證明了SOFT(SOFT+)在各種分類和生成任務中的效率,突出了引導自我對齊在持續增強模型對齊性能方面的潛力。
我們引入語言反饋模型(LFMs),用於識別理想行為,即有助於完成指令中指定任務的行動,以進行指令跟隨中的模仿學習。為了訓練LFMs,我們從大型語言模型(LLMs)獲取反饋,該反饋是關於視覺軌跡被轉化為語言描述。首先,通過使用LFMs識別理想行為進行模仿,我們在三個不同的語言基礎環境(Touchdown、ScienceWorld和ALFWorld)上提高了任務完成率,超越了強行為克隆基線。其次,當控制LLM輸出標記數量時,LFMs表現優於直接預測行動的LLMs專家。第三,LFMs能夠泛化到未見環境,通過一輪適應提高了3.5-12.0%的任務完成率。最後,LFM可以修改為提供人類可解釋的反饋,而不會影響性能,從而允許人類驗證模仿學習中的理想行為。