每日精選AI研究論文及翻譯
語言模型(LMs)已經在自然語言處理研究和商業產品中變得無所不在。隨著其商業重要性的上升,最強大的模型已經變得封閉,只能透過專有接口訪問,其訓練數據、架構和開發的重要細節未公開。考慮到這些細節在科學研究這些模型時的重要性,包括它們的偏見和潛在風險,我們認為研究社區能夠訪問功能強大、真正開放的LMs至關重要。為此,本技術報告詳細介紹了OLMo的首次發布,這是一個最先進的、真正開放的語言模型及其構建和研究語言建模科學的框架。與大多數先前僅發布模型權重和推理代碼的努力不同,我們發布了OLMo和整個框架,包括訓練數據以及訓練和評估代碼。我們希望這一發布能賦予並加強開放研究社區,並激發新一波創新。
語言模型已成為應對各種自然語言處理任務的關鍵技術,然而許多最佳表現的語言模型是如何開發的細節並未報告。特別是,有關它們的預訓練語料庫的資訊很少被討論:商業語言模型很少提供有關其數據的任何信息;即使是開放模型也很少公開它們所接受訓練的數據集,或者確切的製作方法以重現它們。因此,進行某些語言建模研究是具有挑戰性的,例如了解訓練數據如何影響模型的能力並塑造其限制。為促進關於語言模型預訓練的開放研究,我們發布了Dolma,一個由多樣化的網絡內容、科學論文、代碼、公共領域書籍、社交媒體和百科全書材料組成的三兆標記英文語料庫。此外,我們開源我們的數據整理工具包,以便進一步進行實驗和重現我們的工作。在本報告中,我們記錄了Dolma,包括其設計原則、構建細節和內容摘要。我們將這份報告與在Dolma的中間狀態上訓練語言模型的分析和實驗結果交替呈現,以分享我們對重要數據整理實踐的瞭解,包括內容或質量篩選器、去重和多源混合的作用。Dolma已被用於訓練OLMo,一個最先進的、開放的語言模型和框架,旨在構建和研究語言建模科學。
我們介紹 CroissantLLM,這是一個預先訓練在 3T 個英語和法語 tokens 上的 13 億規模語言模型,旨在為研究和工業社區提供高性能、完全開源的雙語模型,可在消費者級本地硬件上快速運行。為此,我們開創了一種訓練內在雙語模型的方法,具有 1:1 的英語到法語預訓練數據比例,自定義的分詞器,以及雙語微調數據集。我們釋出了訓練數據集,特別包括一個法語分割,其中包含手動精心策劃、高質量和多樣化的數據來源。為了評估在英語之外的性能,我們創建了一個新穎的基準測試 FrenchBench,包括一系列分類和生成任務,涵蓋法語語言模型性能的各個正交方面。此外,基於透明度並促進更多大型語言模型研究,我們釋出了代碼庫、數十個不同模型尺寸、訓練數據分佈和訓練步驟的檢查點,以及經過微調的 Chat 模型和強大的翻譯模型。我們通過 FMTI 框架評估我們的模型,並驗證了 81% 的透明度標準,遠遠超出了甚至大多數開放倡議的得分。這項工作豐富了 NLP 領域,擺脫了以往以英語為中心的工作,以加強我們對語言模型中多語性的理解。
理解上下文是理解人類語言的關鍵,這是大型語言模型(LLMs)日益展現出令人印象深刻的能力。然而,儘管LLMs的評估涵蓋自然語言處理領域內的各個範疇,卻對探究它們理解上下文特徵的語言能力給予有限的關注。本文通過調整現有數據集以適應生成模型的評估,引入了一個上下文理解基準。該基準包括四個不同任務和九個數據集,所有這些數據集都包含旨在評估模型理解上下文能力的提示。首先,我們在上下文學習預訓練情境下評估LLMs的性能。實驗結果表明,預先訓練的密集模型在理解更微妙的上下文特徵方面與最先進的微調模型相比存在困難。其次,隨著LLM壓縮在研究和實際應用中變得越來越重要,我們評估了在上下文學習設置下量化模型的上下文理解能力。我們發現,3位元後訓練量化導致在我們基準上性能降低程度不同。我們對這些情境進行了廣泛分析,以證實我們的實驗結果。
我們提出了有效探索在收集人類反饋以改進大型語言模型方面帶來顯著好處的證據。在我們的實驗中,一個代理程序在擬合獲得的反饋時,依次生成查詢。我們表現最佳的代理程序使用雙 Thompson 取樣來生成查詢,不確定性由一個認知神經網絡表示。我們的結果表明,有效探索使性能水平達到了更高水準,並且所需的查詢數量大大減少。此外,不確定性估計和探索方案的選擇都發揮了至關重要的作用。
我們介紹了SymbolicAI,這是一個多功能且模塊化的框架,採用基於邏輯的方法來進行概念學習和流程管理在生成過程中。SymbolicAI通過將大型語言模型(LLMs)視為語義解析器,執行基於自然和形式語言指令的任務,從而實現生成模型與各種求解器的無縫集成,從而彌合符號推理和生成式人工智能之間的差距。我們利用概率編程原則來應對複雜任務,並利用可微分和傳統編程範式及其各自的優勢。該框架引入了一組多態、組合和自指操作,用於數據流操作,將LLM輸出與用戶目標對齊。因此,我們可以在各種具有零次和少次學習能力的基礎模型之間切換,以及專門的、經過精心調整的模型或求解器,能夠擅長解決特定問題。反過來,該框架促進了可解釋計算圖的創建和評估。最後,我們介紹了一個用於評估這些計算圖的質量度量及其實證分數,並提出了一個基準,比較各種最先進的LLMs在一組複雜工作流中的表現。我們將這個實證分數稱為“通過交叉相似性進行關係軌跡評估的向量嵌入”,簡稱VERTEX分數。該框架的代碼庫和基準測試已在下方鏈接。
機器遺忘已經成為一種新的範式,可以有意地從給定模型中遺忘數據樣本,以符合嚴格的法規要求。然而,現有的機器遺忘方法主要集中在分類模型上,對於生成模型的遺忘領域相對未被探索。本文作為一座橋樑,填補了這一空白,提供了一個統一的機器遺忘框架,針對圖像生成模型。在這個框架內,我們提出了一種計算效率高的算法,基於嚴謹的理論分析,證明在保留樣本上表現幾乎沒有下降,同時有效地從遺忘樣本中刪除信息。對於兩個大規模數據集ImageNet-1K和Places-365的實證研究進一步表明,我們的算法不依賴於保留樣本的可用性,進一步符合數據保留政策。據我們所知,這項工作是首次對專門針對圖像生成模型的機器遺忘進行系統性、理論性和實證性探索。我們的代碼可在https://github.com/jpmorganchase/l2l-generator-unlearning找到。
將語言模型與人類偏好對齊的常見方法是首先從偏好數據中學習獎勵模型,然後使用該獎勵模型來更新語言模型。我們研究了這種方法中出現的兩個密切相關的問題。首先,獎勵模型的任何單調變換都會保留偏好排名;是否存在比其他選擇更“好”的選擇?其次,我們通常希望將語言模型與多個屬性對齊:應如何結合多個獎勵模型?通過對齊程序的概率解釋,我們確定了一種自然的轉換選擇,適用於從 Bradley-Terry 偏好模型學習的獎勵(常見情況)。這種衍生的轉換具有兩個重要特性。首先,它強調改善表現不佳的輸出,而不是已經得分良好的輸出。這有助於減輕欠擬合(某些提示未得到改善)和獎勵欺騙(模型學會利用獎勵模型的錯誤規範化)。其次,它通過將求和與邏輯連接相關,實現了對獎勵的原則性聚合:轉換後的獎勵之和對應於輸出在所有測量屬性中都“好”的概率,這一點我們做出了明確說明。使用 RLHF 將語言模型對齊為既有幫助又無害的實驗顯示,相較於基準(未轉換)方法,取得了顯著的改進。
我們介紹了分期攤銷文本轉網格(AToM),這是一種優化的前饋式文本轉網格框架,可同時應用於多個文本提示。與現有的文本轉3D方法相比,這些方法通常需要耗時的每個提示的優化,並且通常輸出的表示形式不是多邊形網格,AToM在不到1秒的時間內直接生成高質量的帶紋理網格,訓練成本降低約10倍,並且具有泛化到未見提示的能力。我們的關鍵思想是一種基於新穎的三平面文本轉網格架構,採用兩階段攤銷優化策略,確保穩定的訓練並實現可擴展性。通過在各種提示基準上進行大量實驗,AToM在DF415數據集中的準確性顯著優於最先進的攤銷方法,達到超過4倍的準確性,並產生更具區分性和高質量的3D輸出。AToM展示了強大的泛化能力,為未見的插值提示提供細緻的3D資產,而無需在推斷期間進行進一步優化,這與每個提示的解決方案不同。
本研究介紹了EE-Tuning,一種輕量且經濟的解決方案,用於訓練/調整早期退出的大型語言模型(LLMs)。與完全參數預訓練的常見方法相比,EE-Tuning通過在參數高效的方式下增加任何預訓練(可能經過微調)的標準LLM的額外早期退出層,從而需要顯著較少的計算資源和訓練數據。我們對EE-Tuning的實現通過廣泛的性能優化實現了優秀的訓練效率,並且由於與3D並行性的完全兼容性,具有良好的可擴展性。系統性實驗的結果驗證了EE-Tuning的功效,確認了可以在有限的訓練預算下實現有效的早期退出LLM推斷。為了讓社區能夠使用早期退出LLMs,我們在https://github.com/pan-x-c/EE-LLM上發布了EE-Tuning實現的源代碼。