每日精選AI研究論文及翻譯
監督式微調(SFT)在調整大型語言模型(LLMs)以適應特定領域或任務中扮演關鍵角色。然而,根據實證實驗所示,實際應用中收集的數據不可避免地包含噪音,這對模型在下游任務中的表現提出了重大挑戰。因此,迫切需要一個抗噪聲的SFT框架,以增強模型在下游任務中的能力。為應對這一挑戰,我們引入了一個強健的SFT框架(RobustFT),對下游任務數據進行噪聲檢測和重新標記。在噪聲識別方面,我們的方法採用多專家協作系統,搭配推理增強模型,實現卓越的噪聲檢測。在去噪階段,我們採用了一種上下文增強策略,該策略整合了最相關和最有信心的知識,並經過仔細評估以生成可靠的標註。此外,我們引入了一種基於響應熵的有效數據選擇機制,確保僅保留高質量樣本進行微調。在五個數據集上進行的大量實驗表明,RobustFT在噪聲情境中表現出色。
在缺乏複雜推理任務的大量人工標註數據的情況下,自我改進——即模型在自身輸出上進行訓練——已成為增強性能的主要方法。然而,這些迭代式自我改進方法背後的關鍵因素仍知之甚少,例如自我改進在何種條件下有效,以及當前迭代中存在的瓶頸是什麼。在這項工作中,我們確定並提出方法來監控這個迭代過程中的兩個關鍵因素:(1) 模型生成足夠多樣化回應的能力(探索);以及(2) 外部獎勵在區分高質量候選者和低質量候選者方面的有效性(利用)。以數學推理為案例研究,我們從定量分析入手,追蹤探索和利用的動態,發現模型的探索能力在迭代過程中迅速惡化,利用外部獎勵的有效性也隨之降低。受到這些發現的啟發,我們引入了B-STaR,一個自我學習推理框架,可以自主調整迭代中的配置,平衡探索和利用,從而根據當前策略模型和可用獎勵優化自我改進的效果。我們在數學推理、編碼和常識推理上的實驗表明,B-STaR不僅在整個訓練過程中增強了模型的探索能力,還實現了探索和利用之間更有效的平衡,從而提高了性能。
推理能力對於大型多模型模型(LMMs)至關重要。在缺乏多模式思維鏈標註數據的情況下,自我演進訓練已經成為增強推理能力的有效且可擴展的方法。儘管自我演進訓練的使用日益增長,尤其是在多模式推理的背景下,對於自我演進訓練的全面理解仍然有限。本文深入探討了用於多模式推理的自我演進訓練的細微差異,並指出了三個關鍵因素:訓練方法、獎勵模型和提示變化。我們系統地檢驗了每個因素,並探索各種配置如何影響訓練的有效性。我們的分析得出了一組每個因素的最佳實踐,旨在優化多模式推理。此外,我們探討了訓練過程中的自我演進動態以及自動平衡機制在提升性能方面的影響。在所有調查之後,我們提出了用於多模式推理的自我演進訓練的最終配方,將這些設計選擇總結為一個我們稱之為MSTaR(用於推理的多模式自我演進訓練)的框架,該框架對於不同基準測試中不同尺寸的模型都具有普遍有效性,例如,在MiniCPM-V-2.5(8B)、Phi-3.5-Vision(4B)和InternVL2(2B)等基準測試中,明顯超越了預演進模型,而無需使用額外的人類標註。我們相信這項研究填補了對於多模式推理的自我演進訓練的理解上的重要空白,並為未來研究提供了一個堅固的框架。我們的策略和獎勵模型以及收集的數據已經釋出,以促進對多模式推理的進一步研究。
自回歸(AR)模型在文本和圖像生成方面取得了最先進的性能,但由於逐標記過程而導致生成速度緩慢。我們提出了一個雄心勃勃的問題:能否將預訓練的AR模型調整以僅在一兩個步驟中生成輸出?如果成功,將顯著推進AR模型的開發和部署。我們注意到,現有的旨在加快AR生成速度的作品,通過一次生成多個標記,基本上無法捕捉輸出分佈,因為標記之間存在條件依賴性,限制了它們對於少步生成的有效性。為了解決這個問題,我們提出了蒸餾解碼(DD),它使用流匹配來創建從高斯分佈到預訓練AR模型輸出分佈的確定性映射。然後,我們訓練一個網絡來蒸餾這個映射,實現少步生成。DD不需要原始AR模型的訓練數據,使其更實用。我們在最先進的圖像AR模型上評估了DD,並在ImageNet-256上呈現了令人期待的結果。對於需要進行10步生成的VAR,DD實現了一步生成(加速6.3倍),FID從4.19增加到9.96,仍然可接受。對於LlamaGen,DD將生成步驟從256步減少到1,實現了217.8倍的加速,FID從4.11增加到11.35,相當可觀。在這兩種情況下,基準方法完全失敗,FID>100。DD在文本到圖像生成方面也表現出色,將LlamaGen的生成步驟從256步減少到2,FID從25.70增加到28.95,增加幅度最小。作為首個展示圖像AR模型一步生成可能性的作品,DD挑戰了AR模型本質上緩慢的普遍觀念,並為高效的AR生成開辟了新機遇。項目網站位於https://imagination-research.github.io/distilled-decoding。
o1 模型系列是透過大規模強化學習進行訓練,以推理思維鏈。這些先進的推理能力為改善我們模型的安全性和韌性提供了新途徑。特別是,我們的模型能夠在回應潛在不安全提示時,通過深思熟慮的調整,在情境中推理我們的安全政策。這導致在某些風險基準上表現卓越,例如生成不當建議、選擇刻板回應,以及屈服於已知的越獄行為。在回答問題之前訓練模型納入一連串思考的潛力,有望帶來可觀的好處,同時也增加源自提高智能的潛在風險。我們的結果強調了建立堅固對齊方法、廣泛測試其效力,以及保持細緻風險管理協議的必要性。本報告概述了為 OpenAI o1 和 OpenAI o1-mini 模型進行的安全工作,包括安全評估、外部紅隊測試和準備框架評估。
透過生成並關注中間推理步驟,使大型語言模型(LLMs)能夠「更深入思考」的技術已顯示出在解決複雜問題方面的潛力。然而,標準方法在回應前立即生成一系列離散標記,因此可能會產生顯著的延遲成本並且難以進行優化。在這項研究中,我們展示了一種凍結的LLM可以透過離線協處理器來擴充,該協處理器操作於模型的鍵-值(kv)緩存上。這個協處理器通過一組旨在改善後續解碼準確性的潛在嵌入來擴充緩存。我們使用解碼器在標準預訓練數據上的語言建模損失來訓練這個協處理器,同時保持解碼器本身凍結。這種方法使模型能夠以端到端可微分的方式學習如何將額外的計算融入其kv-緩存中。由於解碼器保持不變,協處理器可以離線和異步操作,如果協處理器不可用或者特定緩存被認為不需要額外計算,語言模型可以正常運作。我們實驗性地展示,當緩存被擴充時,解碼器在許多後續標記上實現更低的困惑度。此外,即使沒有任何特定任務的訓練,我們的實驗表明,緩存擴充始終能夠降低困惑度並改善在一系列需要推理的任務中的性能。
在上下文學習(ICL)中,語言模型根據輸入上下文中提供的示例進行預測。以往,上下文窗口大小對可以展示的示例數量施加了限制,使示例選擇技術對於識別最大效果示例集至關重要。然而,最近出現的長上下文語言模型(LCLMs)顯著增加了可以包含在上下文中的示例數量,引發了一個重要問題,即在多樣本情況下,ICL的表現是否仍對樣本選擇方法敏感。為了回答這個問題,我們通過對涵蓋4個任務的18個數據集進行廣泛實驗,重新審視了這些方法在LCLMs背景下的應用。令人驚訝的是,我們觀察到,複雜的示例選擇技術並未比簡單的隨機樣本選擇方法帶來顯著改進。相反,我們發現LCLMs的出現從選擇最有效示例的挑戰基本上轉變為收集足夠的示例以填充上下文窗口。具體而言,在某些數據集中,包含所有可用示例並未充分利用上下文窗口;然而,通過將上下文中的示例與簡單的數據增強方法相結合,我們將ICL的性能顯著提高了5%。
學習建立一個強大的影片變分自編碼器(VAE)對於減少影片冗餘並促進高效影片生成至關重要。直接將影像VAE應用於個別幀可能導致時間不一致和次優的壓縮率,這是由於缺乏時間壓縮。現有的影片VAE已經開始解決時間壓縮的問題;然而,它們通常受到重建性能不足的困擾。在本文中,我們提出了一種新穎且強大的影片自編碼器,能夠進行高保真度的影片編碼。首先,我們觀察到通過將影像VAE擴展為3D VAE來交織空間和時間壓縮可能會引入運動模糊和細節失真。因此,我們提出了具有時間感知的空間壓縮,以更好地編碼和解碼空間信息。此外,我們還整合了一個輕量級運動壓縮模型,以進一步進行時間壓縮。其次,我們建議利用文本-影片數據集中固有的文本信息,並將文本引導納入我們的模型中。這顯著提高了重建質量,特別是在保留細節和時間穩定性方面。第三,我們通過對圖像和影片進行聯合訓練進一步提高了我們模型的多功能性,這不僅增強了重建質量,還使模型能夠執行圖像和影片自編碼。通過與最近的強基線進行廣泛評估,證明了我們方法的卓越性能。項目網站可在以下網址找到:https://yzxing87.github.io/vae/。
最近,類似 O1 的模型已經成為代表性的例子,展示了在推理任務中,如數學和編碼任務中,長思維(CoT)的有效性。在本文中,我們介紹了 DRT-o1,試圖將長 CoT 的成功帶入神經機器翻譯(MT)。具體來說,鑒於可能涉及比喻和隱喻的文學書籍,在實踐中將這些文本翻譯成目標語言是非常困難的,這是由於文化差異。在這些情況下,直譯通常無法有效傳達預期的含義。即使對於專業的人類翻譯人員,也必須仔細考慮在整個翻譯過程中保留語義。為了模擬LLMs在MT中的長思維能力,我們首先從現有的文學書籍中挖掘包含比喻或隱喻的句子,然後開發一個多智能體框架來通過長思維翻譯這些句子。在多智能體框架中,使用一個翻譯器來根據顧問提供的建議迭代地翻譯源句。為了確保長思維的有效性,還雇用了一個評估器來判斷當前回合的翻譯是否比上一個更好。通過這種方式,我們收集了數以萬計的長思維MT數據,用於訓練我們的DRT-o1。在文學翻譯上的實驗結果展示了DRT-o1的有效性。使用Qwen2.5-7B和Qwen2.5-14B作為骨幹,DRT-o1帶來的改進達到了7.33~8.26 BLEU和1.66~3.36 CometScore。此外,DRT-o1-7B可以比QwQ-32B-Preview高出7.82 BLEU和1.46 CometScore,顯示了其有效性。該項目可在https://github.com/krystalan/DRT-o1找到。
當今的生成式人工智慧系統通常被調整為默認呈現資訊,而非像人類導師那樣與使用者互動以促進學習。為了應對這些系統在教育領域中的廣泛應用,我們重新定義了注入教學行為的挑戰,將其視為教學指導跟隨的挑戰,其中訓練和評估範例包括系統級指導,描述後續模型轉換中存在或期望的具體教學特徵。這種框架避免了將我們的模型限定於任何特定的教學定義,反而允許教師或開發人員指定期望的模型行為。這也為改進 Gemini 模型的學習能力鋪平了道路,通過將我們的教學數據添加到訓練後的混合中,與其快速擴展的功能集相結合。這兩者都代表了我們最初技術報告的重要變化。我們展示了如何使用教學指導跟隨進行訓練,產生了一個 LearnLM 模型(可在 Google AI Studio 上使用),在各種學習情境中,專家評分者明顯偏好該模型,平均偏好強度比 GPT-4o 高出 31%,比 Claude 3.5 高出 11%,比基於 Gemini 1.5 Pro 模型的 LearnLM 高出 13%。
大型語言模型展示了在程式碼生成方面的卓越能力,然而在需要深度演算推理的複雜程式設計任務中通常會遇到困難。儘管透過學習獎勵模型進行過程監督在引導推理步驟方面顯示出潛力,但它需要昂貴的訓練數據並且存在評估不可靠的問題。我們提出了一種新穎的「結果精煉過程監督」範式,將結果精煉本身視為需要監督的過程。我們的框架利用具體的執行信號來基於推理步驟進行監督,同時使用樹狀結構的探索來同時維護多個解決方案軌跡。實驗表明,我們的方法使得即使較小的模型也能在競爭性程式設計任務中實現高成功準確度和性能指標,比傳統獎勵模型創造出更可靠的驗證,而無需訓練 PRMs。我們的方法在5個模型和3個數據集上實現了顯著改進:平均正確性提高了26.9%,效率提高了42.2%。結果表明,提供具體驗證信號的結構化推理空間對解決複雜程式設計任務至關重要。我們將所有的程式碼和數據開源,網址為:https://github.com/zhuohaoyu/ORPS
大型語言模型(LLMs)已在科學領域展現出卓越的潛力,然而一個基本問題仍然沒有答案:我們能用LLMs模擬人類研究社區嗎?解答這個問題可以加深我們對想法激發背後過程的理解,並激發對新科學見解的自動發現。在這項工作中,我們提出ResearchTown,一個用於研究社區模擬的多智能體框架。在這個框架內,人類研究社區被簡化並建模為一個智能體-數據圖,其中研究人員和論文分別被表示為智能體類型和數據類型節點,並根據他們的合作關係相連。我們還引入TextGNN,一個基於文本的推理框架,將各種研究活動(例如閱讀論文、寫作論文和寫作評論)建模為在智能體-數據圖上的統一消息傳遞過程的特殊形式。為了評估研究模擬的質量,我們提出ResearchBench,一個使用節點遮罩預測任務進行可擴展和客觀評估的基準。我們的實驗揭示了三個關鍵發現:(1)ResearchTown可以提供合作研究活動的逼真模擬,包括寫作論文和寫作評論;(2)ResearchTown可以保持對多個研究人員和多樣論文的穩健模擬;(3)ResearchTown可以產生跨學科研究想法,潛在地激發新的研究方向。
想像一個世界,人工智慧可以在您睡覺時處理您的工作 - 整理您的研究資料、起草報告,或製作您明天需要的簡報。然而,儘管目前的數位代理人可以執行簡單的任務,但它們遠未能處理人類經常執行的複雜現實工作。我們提出 PC 代理人,透過人類認知轉移展示了朝著這個願景邁出的關鍵一步。我們的主要洞察是,從執行簡單的「任務」到處理複雜的「工作」的途徑在於有效地捕捉並學習人類在使用電腦時的認知過程。為了驗證這一假設,我們引入了三個關鍵創新:(1) PC 追蹤器,一個輕量級基礎設施,有效地收集具有完整認知背景的高質量人機互動軌跡;(2) 一個兩階段認知完成流程,通過完成動作語義和思考過程,將原始互動數據轉換為豐富的認知軌跡;以及(3) 一個多代理系統,結合了一個用於決策的規劃代理和一個用於穩健視覺基礎的基礎代理。我們在 PowerPoint 簡報創建方面的初步實驗顯示,只需少量高質量的認知數據,PC 代理人就能處理涉及多個應用程式的高達 50 個步驟的複雜工作情境。這展示了我們方法的數據效率,突顯了培訓能力強大的數位代理人的關鍵在於收集人類認知數據。通過開源我們的完整框架,包括數據收集基礎設施和認知完成方法,我們的目標是降低研究社群發展真正能力強大的數位代理人的門檻。
隨著大型語言模型(LLMs)越來越多地被部署為代理人,它們整合到互動環境和工具使用中,帶來了超出模型本身相關的新安全挑戰。然而,缺乏全面的評估代理人安全性的基準,對於有效評估和進一步改進構成了重大障礙。在本文中,我們介紹了Agent-SafetyBench,這是一個旨在評估LLM代理人安全性的全面基準。Agent-SafetyBench 包括349個互動環境和2,000個測試案例,評估了8個安全風險類別,涵蓋了10種常見的不安全互動中經常遇到的失敗模式。我們對16個流行的LLM代理進行評估後發現一個令人擔憂的結果:沒有一個代理人的安全得分超過60%。這突顯了LLM代理人中存在重大的安全挑戰,並強調了對改進的巨大需求。通過定量分析,我們確定了關鍵的失敗模式,並總結了當前LLM代理人中兩個基本的安全缺陷:缺乏魯棒性和缺乏風險意識。此外,我們的研究結果表明,僅依賴防禦提示是不足以應對這些安全問題的,強調了需要更先進和更堅固的策略。我們在 https://github.com/thu-coai/Agent-SafetyBench 上發布了Agent-SafetyBench,以促進代理人安全性評估和改進的進一步研究和創新。
多模多方對話(MMC)是一個鮮少被研究但重要的研究主題,因為它很適合真實世界的情境,因此潛在地具有更廣泛的應用。與傳統的多模對話相比,MMC 需要更強的以角色為中心的理解能力,因為在視覺和文本上下文中都出現了許多對話者。為了促進對這個問題的研究,我們在本文中提出了 Friends-MMC,這是一個包含 24,000 多個獨特發言與視頻上下文配對的 MMC 數據集。為了探索對話的以角色為中心的理解,我們還標註了每個發言者的發言、視頻中出現的臉部的名稱和邊界框。基於這個 Friends-MMC 數據集,我們進一步研究了兩個基本的 MMC 任務:對話發言者識別和對話回應預測,這兩者都具有多方性質,視頻或圖像作為視覺上下文。對於對話發言者識別,我們展示了現有方法(如預訓練模型)的效率問題,並提出了一種簡單而有效的基準方法,利用優化求解器來利用兩種模態的上下文以獲得更好的性能。對於對話回應預測,我們在 Friends-MMC 上微調生成式對話模型,並分析了發言者信息的好處。代碼和數據集可以在 https://github.com/yellow-binary-tree/Friends-MMC 公開獲得,因此我們呼籲更多關注在理解對話時塑造發言者信息。
OpenAI 最近推出的強化微調(RFT)展示了推理基礎模型的潛力,並提供了一種超越簡單模式模仿的微調新範式。本技術報告介紹了 OpenRFT,我們試圖在與 RFT 相同的設置下,對通用推理模型進行領域特定任務的微調。OpenRFT 通過三種方式利用領域特定樣本來應對缺乏推理步驟數據和有限的訓練樣本數量這兩個關鍵挑戰:問題擴增、合成推理過程數據和少樣本 ICL。在 SciKnowEval 上進行評估,OpenRFT 在每個任務僅使用 100 個領域特定樣本就實現了顯著的性能提升。更多實驗結果將在後續版本中持續更新。源代碼、數據集和模型可在以下網址找到:https://github.com/ADaM-BJTU/OpenRFT
作為增強LLMs與人類意圖一致性的重要步驟,指令微調(IFT)對數據集質量有較高要求。然而,現有的IFT數據集通常包含與LLMs在預訓練階段學習的內部知識不一致的知識,這可能嚴重影響IFT的效果。為解決此問題,我們引入了NILE(iNternal consIstency aLignmEnt)框架,旨在優化IFT數據集以進一步發揮LLMs的能力。NILE通過引出目標預訓練LLM與指令數據相對應的內部知識來運作。利用內部知識來修改IFT數據集中的答案。此外,我們提出了一種新的內部一致性過濾(ICF)方法來過濾訓練樣本,確保其與LLM的內部知識高度一致。我們的實驗表明,NILE對齊的IFT數據集顯著提升了LLM在多個LLM能力評估數據集上的性能,分別在Arena-Hard上達到了66.6%的增益,在Alpaca-Eval V2上達到了68.5%。進一步分析證實了NILE框架的每個組件都有助於這些顯著的性能改進,並提供了令人信服的證據,即與預訓練內部知識一致的數據集一致性對於最大化LLM潛力至關重要。