每日精選AI研究論文及翻譯
本報告介紹了 Qwen2 系列,這是我們大型語言模型和大型多模態模型的最新成員。我們釋出了一套全面的基礎和指導調整的語言模型,涵蓋了從 0.5 到 720 億的參數範圍,包括密集模型和專家混合模型。Qwen2 超越了大多數先前的開放式權重模型,包括其前身 Qwen1.5,並在語言理解、生成、多語能力、編碼、數學和推理等各種基準測試中展現出與專有模型具有競爭力的表現。 旗艦模型 Qwen2-72B 展示了卓越的性能:在 MMLU 上為 84.2,在 GPQA 上為 37.9,在 HumanEval 上為 64.6,在 GSM8K 上為 89.5,在 BBH 上為 82.4,作為基本語言模型。指導調整變體 Qwen2-72B-Instruct 在 MT-Bench 上達到 9.1,在 Arena-Hard 上為 48.1,在 LiveCodeBench 上為 35.7。此外,Qwen2 展示了強大的多語能力,在約 30 種語言中表現優秀,包括英語、中文、西班牙語、法語、德語、阿拉伯語、俄語、韓語、日語、泰語、越南語等,突顯了其多功能性和全球覆蓋範圍。 為促進社區創新和可訪問性,我們已在 Hugging Face 和 ModelScope 上公開提供了 Qwen2 模型權重,並在 GitHub 上提供了包括示例代碼在內的補充材料。這些平台還包括量化、微調和部署資源,有助於廣泛應用和研究工作。
大型語言模型(LLMs)展現出在理解和生成自然語言方面的卓越能力。然而,這些模型可能會無意中記憶私人信息,帶來重大的隱私風險。本研究解決了使LLMs能夠保護特定個人私人數據的挑戰,而無需進行完整的重新訓練。我們提出\return,一個真實世界的個人數據取消學習數據集,包括來自維基百科的2,492個個人及其相關的問答對,以評估機器取消學習(MU)方法在實際情況下保護個人數據的效果。此外,我們引入了基於姓名的取消學習框架(NAUF)用於隱私保護,使模型能夠學習應該保護哪些個人信息,而不影響其回答與其他無關個人相關問題的能力。我們的廣泛實驗表明,NAUF實現了最先進的平均取消學習分數,超過最佳基準方法5.65個百分點,有效保護目標個人的個人數據,同時保持模型的通用能力。
最近的研究一直在探索具體化人工智慧領域中的擴展規律。鑑於收集真實世界數據的高昂成本,我們認為模擬到真實(Sim2Real)範式是擴展具體化模型學習的關鍵一步。本文介紹了GRUtopia項目,這是第一個為各種機器人設計的模擬互動式3D社會。它具有幾個先進之處:(a) 場景數據集GRScenes包括10萬個互動式、精細標註的場景,可以自由組合成城市規模的環境。與先前主要專注於家庭的作品不同,GRScenes涵蓋了89個不同的場景類別,彌合了服務導向環境的鴻溝,這是通用機器人最初可能部署的地方。(b) GRResidents是一個由大型語言模型(LLM)驅動的非玩家角色(NPC)系統,負責社交互動、任務生成和任務分配,從而模擬具體化人工智慧應用的社交場景。(c) 基準測試GRBench支持各種機器人,但主要專注於四肢機器人作為主要代理人,提出涉及物體定位導航、社交導航和定位操作的中等挑戰性任務。我們希望這項工作可以緩解這一領域高質量數據的匱乏問題,並提供對具體化人工智慧研究更全面的評估。該項目可在https://github.com/OpenRobotLab/GRUtopia找到。
目前對大型語言模型(LLMs)的評估往往忽略了非確定性,通常專注於每個示例的單個輸出。這限制了我們對LLM在實際應用中性能變異性的理解。我們的研究通過探索有關貪婪解碼和抽樣之間性能差異的關鍵問題,確定基準在非確定性方面的一致性,並檢查獨特的模型行為來解決這個問題。通過大量實驗,我們觀察到,對於大多數評估任務,貪婪解碼通常優於抽樣方法。我們還觀察到,在不同的LLM大小和對齊方法之間表現一致,並指出對齊可以減少抽樣變異。此外,我們的最佳N抽樣方法表明,較小的LLMs可以與或超越諸如GPT-4-Turbo之類的較大模型,突顯了較小LLMs的潛力。這項研究顯示了在LLM評估中考慮非確定性的重要性,並為未來LLM的開發和評估提供了見解。
我們介紹了 Q-Sparse,這是一種簡單而有效的方法,用於訓練稀疏激活的大型語言模型(LLMs)。Q-Sparse實現了LLMs中激活的完全稀疏,這可以在推論中帶來顯著的效率提升。這是通過對激活應用top-K稀疏化和使用直通估計器進行訓練來實現的。這項工作的關鍵結果有:(1)Q-Sparse在推論時可以達到與基準LLMs相媲美的結果,同時更加高效;(2)我們提出了一個適用於稀疏激活LLMs的推論最優擴展定律;(3)Q-Sparse在不同設置下都很有效,包括從頭開始訓練、繼續訓練現成的LLMs和微調;(4)Q-Sparse適用於完整精度和1位元LLMs(例如BitNet b1.58)。特別是,BitNet b1.58和Q-Sparse的協同作用(可以配備MoE)為未來LLMs的效率革新提供了基石和清晰的道路,包括成本和能源消耗。
隨著大型語言模型(LLMs)的進步,由於人工評估的高成本,可靠地評估它們的輸出變得更加具有挑戰性。為了朝著更好的LLM自動評估器邁進,我們引入了FLAMe,一系列基礎大型評估模型。FLAMe是在我們的大型且多樣化的100多個質量評估任務的收集上進行訓練,包括500萬多個人類判斷,這些任務是通過以前研究的公開發布的人工評估進行策劃和標準化的。FLAMe顯著改善了對各種留存任務的泛化能力,在許多任務上優於使用像GPT-4和Claude-3等專有數據訓練的LLMs。我們展示了FLAMe也可以作為進一步下游微調的強大起點,以獎勵建模評估作為案例研究(FLAMe-RM)。值得注意的是,在RewardBench上,我們的FLAMe-RM-24B模型(準確率為87.8%)是排名第一的生成模型,僅使用許可的數據進行訓練,優於GPT-4-0125(85.9%)和GPT-4o(84.7%)。此外,我們探索了一種更具計算效率的方法,使用一種新穎的尾部補丁微調策略來優化我們的FLAMe多任務混合以進行獎勵建模評估(FLAMe-Opt-RM),在需要約25倍較少的訓練數據點的情況下提供具有競爭力的RewardBench性能。總的來說,我們的FLAMe變體在我們考慮的12個自動評估基準中的8個中優於所有流行的專有LLM作為評判模型,包括53個質量評估任務,包括RewardBench和LLM-AggreFact。最後,我們的分析顯示,FLAMe在CoBBLEr自動評估器偏見基準上明顯比這些LLM作為評判模型更少偏見,同時有效地識別代碼生成的高質量響應。
我們是否可以僅使用一個所需行為示範來生成代理的控制策略,就像從文字描述創建圖像一樣輕鬆?在本文中,我們提出了Make-An-Agent,一種新穎的政策參數生成器,利用條件擴散模型的強大功能進行行為到政策生成。在行為嵌入的指導下,該政策生成器合成潛在參數表示,然後可以將其解碼為政策網絡。通過訓練政策網絡檢查點及其對應的軌跡,我們的生成模型展示了在多個任務上的卓越靈活性和可擴展性,並具有對未見任務的強大泛化能力,僅需少量示範作為輸入即可輸出表現良好的政策。我們展示了它在各種領域和任務上的效力和效率,包括不同目標、行為,甚至跨不同機器人操作者。除了模擬之外,我們還將Make-An-Agent生成的政策直接部署到現實世界的機器人上進行運動任務。
儘管文本到圖像擴散模型已證明在圖像合成方面取得了最先進的成果,但它們尚未證明在下游應用中的有效性。先前的研究提出在僅有有限真實數據訪問權限的情況下生成圖像分類器訓練數據。然而,這些方法在生成符合分布的圖像或描繪細粒度特徵方面遇到困難,從而阻礙了在合成數據集上訓練的分類模型的泛化。我們提出了DataDream,一個框架用於合成更忠實地代表真實數據分布的分類數據集,當受到目標類別的少樣本示例引導時。DataDream在生成訓練數據之前,通過少量真實圖像對圖像生成模型的LoRA權重進行微調,然後使用適應後的模型生成訓練數據。然後,我們通過使用合成數據對CLIP進行LoRA權重的微調,以改善在眾多數據集上比以往方法更具下游圖像分類的性能。我們通過廣泛的實驗證明了DataDream的有效性,在10個數據集中有7個數據集中使用少樣本數據超越了最先進的分類準確性,而在其他3個數據集上則具有競爭力。此外,我們提供了有關各種因素的影響洞察,例如真實樣本和生成圖像的數量以及對模型性能的微調計算。代碼可在https://github.com/ExplainableML/DataDream找到。
影片轉音頻(V2A)生成利用僅視覺影片特徵來呈現與場景相匹配的合理聲音。重要的是,生成的聲音起始應與與之對齊的視覺動作相匹配,否則將產生不自然的同步問題。最近的研究探索了在靜止圖像上條件化聲音生成器的進展,然後是視頻特徵,專注於質量和語義匹配,同時忽略同步,或者犧牲一定程度的質量來專注於僅改善同步。在這項工作中,我們提出了一個名為MaskVAT的V2A生成模型,將全頻高質量通用音頻編解碼器與序列到序列的遮罩生成模型相互連接。這種組合同時允許對高音質、語義匹配和時間同步性進行建模。我們的結果表明,通過將高質量編解碼器與適當的預訓練音視覺特徵以及序列到序列並行結構相結合,我們一方面能夠產生高度同步的結果,同時在另一方面與非編解碼器生成音頻模型的最新技術相競爭。樣本視頻和生成的音頻可在https://maskvat.github.io 上找到。
我們介紹了一個新的視頻預測模型家族,旨在支持下游控制任務。我們將這些模型稱為視頻佔用模型(VOCs)。VOCs在一個緊湊的潛在空間中運作,因此無需對個別像素進行預測。與先前的潛在空間世界模型不同,VOCs直接預測未來狀態的折扣分佈,一步到位,因此無需多步推演。我們展示了在構建用於下游控制的視頻預測模型時,這兩個特性都是有益的。代碼可在https://github.com/manantomar/video-occupancy-models{github.com/manantomar/video-occupancy-models}找到。
資料科學和工程工作流程通常涵蓋多個階段,從數據倉庫到管控,使用像是BigQuery、dbt和Airbyte這樣的工具。隨著視覺語言模型(VLMs)在多模態理解和程式碼生成方面的進展,基於VLM的代理人有潛力通過生成SQL查詢、Python程式碼和GUI操作來自動化這些工作流程。這種自動化可以提高專家的生產力,同時實現對大規模數據分析的民主化訪問。在本文中,我們介紹了Spider2-V,這是專注於專業資料科學和工程工作流程的第一個多模態代理人基準,包括494個真實世界任務,在真實的計算機環境中,並整合了20個企業級專業應用程式。這些任務源自真實用例,評估了多模態代理人通過編寫程式碼和管理企業數據軟件系統中的GUI來執行與數據相關任務的能力。為了在現實模擬和評估簡單性之間取得平衡,我們致力於為任務設置開發自動配置,並為每個任務精心製作評估指標。此外,我們通過全面的文件補充多模態代理人的這些企業數據軟件系統。我們的實證評估顯示,現有的最先進的LLM/VLM基於代理無法可靠地自動化完整的數據工作流程(成功率為14.0%)。即使有逐步指導,這些代理在需要細粒度、知識密集型GUI操作的任務中仍表現不佳(16.2%),並涉及遠程雲端工作空間的任務(10.6%)。我們希望Spider2-V為自主多模態代理人改變資料科學和工程工作流程的自動化鋪平道路。我們的程式碼和數據可在https://spider2-v.github.io 上獲得。
廣泛樂觀認為,前沿大型語言模型(LLMs)和LLM增強系統具有潛力快速推動跨學科科學發現。如今,存在許多基準來衡量LLM在教科書風格科學問題上的知識和推理能力,但幾乎沒有基準旨在評估語言模型在科學研究所需的實際任務上的表現,例如文獻搜索、協議規劃和數據分析。為了建立此類基準的一個步驟,我們引入了語言代理生物學基準(LAB-Bench),這是一個包含超過2,400道多項選擇題的廣泛數據集,用於評估AI系統在一系列實際生物學研究能力上的表現,包括對文獻的回憶和推理、圖表解釋、訪問和導航數據庫,以及對DNA和蛋白質序列的理解和操作。重要的是,與以往的科學基準相比,我們預期,能夠在LAB-Bench更難的任務上持續取得高分的AI系統將成為研究人員在文獻搜索和分子克隆等領域的有用助手。作為對前沿語言模型新興科學任務能力的初步評估,我們測量了幾個模型對我們基準的表現,並報告了與人類專家生物學研究人員的比較結果。我們將繼續隨時間更新和擴展LAB-Bench,並期望它成為未來自動化研究系統開發中的一個有用工具。LAB-Bench的公共子集可在以下網址使用:https://huggingface.co/datasets/futurehouse/lab-bench
參數高效遷移學習(Parameter-efficient transfer learning,PETL)已成為一個蓬勃發展的研究領域,用於將大型預訓練模型適應到下游任務,大大減少可訓練參數,同時應對微調過程中的記憶挑戰。為了應對這一問題,記憶高效串列(Memory-efficient series,METL)避免通過大型主幹進行梯度反向傳播。然而,它們通過僅依賴凍結的中間輸出並限制對預訓練模型中先前知識的全面探索來進行妥協。此外,跨層特徵之間的依賴性和冗余經常被忽視,從而淹沒了更具區分性的表示,導致固有性能差距(與傳統的PETL方法相比)。因此,我們提出了一種名為SHERL的創新METL策略,用於資源有限的情況,將整個適應過程分解為兩個連續且互補的過程。在早期路線中,通過反冗余操作將中間輸出合併,增強它們對後續交互的兼容性;因此在晚期路線中,利用最少的晚期預訓練層可以減輕對記憶開銷的高峰需求,並將這些相當靈活的特徵調整為更適應和強大的表示,以應對新領域。對視覺和語言以及僅語言任務進行了大量消融實驗,結果顯示SHERL結合了參數和記憶高效技術的優勢,在微調過程中跨不同架構表現出與或更好的性能,並具有更低的記憶消耗。我們的程式碼可在以下鏈接公開獲取:https://github.com/Paranioar/SHERL。
相互強化效應(MRE)代表了信息提取和多任務研究中一個具有前景的途徑。然而,由於 MRE 混合數據集僅以日語為獨家提供,因此全球研究社區的全面探索受到了限制。為解決這一限制,我們引入了一個多語言 MRE 混合數據集(MMM),包括英語、日語和中文的 21 個子數據集。在本文中,我們還提出了一種數據集翻譯方法,該方法借助大型語言模型(LLMs)顯著減少了數據集構建所需的手動標註時間,通過利用 LLMs 將原始日語數據集進行翻譯。此外,我們通過加入開放域命名實體識別(NER)和句子分類任務來豐富數據集。利用這個擴展數據集,我們開發了一個統一的輸入-輸出框架來訓練一個開放域信息提取大型語言模型(OIELLM)。OIELLM 模型展示了有效處理新的 MMM 數據集的能力,表現出顯著的性能改進。
目前大多數部署的大型語言模型(LLMs)都經歷持續的訓練或額外的微調。相比之下,大多數關於LLMs內部機制的研究集中在某一時間點的模型(預訓練結束時),這引發了一個問題,即這些結果是否適用於現實世界的情境。現有對隨時間變化的機制的研究主要集中在僅有編碼器或玩具模型上,這些模型與大多數部署的模型有顯著差異。在本研究中,我們追蹤解碼器專用LLMs在訓練 3000 億標記的過程中,從 7000 萬到 28 億參數的模型中,模型機制如何形成和演變。我們發現任務能力及支持它們的功能組件在不同規模下的標記數出現一致。此外,儘管這些組件可能隨時間由不同的注意力頭實現,但它們實現的主要算法保持不變。令人驚訝的是,這些算法和其中涉及的組件類型可以在模型規模上複製。這些結果表明,在預訓練結束時對小型模型進行的電路分析仍然適用於額外預訓練和模型規模的情況。
為了提升合成影片的品質,目前主要的方法之一是重新訓練專家擴散模型,然後實施一個噪聲去噪過程進行精煉。儘管訓練成本高昂,但在原始影片與增強影片之間保持內容一致性仍然是一個重大挑戰。為了應對這一挑戰,我們提出了一種新穎的公式,同時考慮視覺品質和內容一致性。通過一個提出的損失函數來確保內容的一致性,該函數保持輸入的結構,同時通過利用預訓練擴散模型的去噪過程來提高視覺品質。為了解決所制定的優化問題,我們開發了一種即插即用的噪聲優化策略,稱為噪聲校準。通過通過幾次迭代來精煉初始隨機噪聲,可以在很大程度上保留原始影片的內容,並且增強效果表現出顯著的改善。大量實驗證明了所提方法的有效性。