每日精選AI研究論文及翻譯
近期,大型語言模型(LLMs)的進展加速了金融自然語言處理(NLP)及其應用的發展,然而現有的基準測試仍局限於單語和單模態的環境,往往過度依賴於簡單任務,未能反映現實世界金融交流的複雜性。我們推出了MultiFinBen,這是首個專為全球金融領域量身定制的多語言多模態基準測試,評估LLMs在多模態(文本、視覺、音頻)及多語言環境(單語、雙語、多語)下執行特定領域任務的能力。我們引入了兩項新穎任務,包括PolyFiQA-Easy和PolyFiQA-Expert,這是首個要求模型對混合語言輸入進行複雜推理的多語言金融基準測試;以及EnglishOCR和SpanishOCR,這是首個嵌入光學字符識別(OCR)的金融問答任務,挑戰模型從視覺文本金融文檔中提取信息並進行推理。此外,我們提出了一種動態的、難度感知的選擇機制,並精心策劃了一個緊湊且平衡的基準測試,而非簡單地彙總現有數據集。對22個最先進模型的廣泛評估顯示,即便是最強大的模型,儘管具備一般的多模態和多語言能力,在面對金融領域複雜的跨語言和多模態任務時,也表現出顯著的困難。MultiFinBen已公開發布,旨在促進金融研究和應用中的透明、可重現及包容性的進步。
擴展測試時計算資源已顯著提升大型語言模型(LLMs)的推理能力。在本研究中,我們首次系統性地探索了將測試時擴展方法應用於語言代理,並深入探討了其在多大程度上提升了這些代理的效能。具體而言,我們探討了多種測試時擴展策略,包括:(1)平行採樣算法;(2)序列修正策略;(3)驗證器與結果合併方法;(4)多樣化探索策略。我們細緻分析並消融了不同設計策略對語言代理應用測試時擴展的影響,得出以下發現:1. 擴展測試時計算資源確實能提升代理的表現。2. 對代理而言,知曉何時進行反思至關重要。3. 在各種驗證與結果合併方法中,列表式方法表現最佳。4. 增加多樣化探索對代理的任務執行有積極影響。
近期,音频-文本大语言模型(LLMs)的进展为音乐理解与生成开辟了新的可能性。然而,现有的基准测试在范围上存在局限,往往依赖于简化的任务或多选评估,未能反映现实世界音乐分析的复杂性。我们将一系列传统的音乐信息检索(MIR)注释重新诠释为指令跟随格式,并引入了CMI-Bench,这是一个全面的音乐指令跟随基准,旨在评估音频-文本LLMs在多样化的MIR任务上的表现。这些任务包括流派分类、情感回归、情感标签、乐器分类、音高估计、调性检测、歌词转录、旋律提取、演唱技巧识别、乐器演奏技巧检测、音乐标签、音乐描述以及(下)拍跟踪,反映了MIR研究的核心挑战。与以往基准不同,CMI-Bench采用了与先前最先进的MIR模型一致的标准化评估指标,确保了与监督方法的直接可比性。我们提供了一个评估工具包,支持所有开源的音频-文本LLMs,包括LTU、Qwen-audio、SALMONN、MusiLingo等。实验结果显示,LLMs与监督模型之间存在显著的性能差距,同时揭示了它们在文化、年代和性别上的偏见,凸显了当前模型在处理MIR任务时的潜力与局限。CMI-Bench为评估音乐指令跟随建立了统一的基础,推动了音乐感知LLMs的进步。
大型语言扩散模型(Diffusion LLMs)已成为自然语言处理(NLP)研究的重要焦点,大量研究致力于理解其可扩展性和下游任务表现。然而,其长上下文能力尚未得到探索,缺乏系统性的分析或上下文扩展方法。在本研究中,我们首次系统地比较了扩散LLMs与传统自回归LLMs在长上下文任务中的表现。我们首先发现扩散LLMs的一个独特特性,与自回归LLMs不同,它们在直接上下文外推时保持了显著的\textit{稳定困惑度}。此外,在“大海捞针”任务中,当上下文长度超过预训练长度时,自回归模型完全失败,而扩散LLMs则表现出独特的\textit{局部感知}现象,能够成功从最近的上下文片段中检索信息。我们通过旋转位置嵌入(RoPE)缩放理论解释了这两种现象。基于这些观察,我们提出了LongLLaDA,一种无需训练的方法,将LLaDA与基于NTK的RoPE外推相结合。我们的结果验证了既有的外推缩放定律在扩展扩散LLMs上下文窗口时仍然有效。此外,我们识别出扩散LLMs在某些长上下文任务中优于自回归LLMs,而在其他任务中则表现不足。因此,本研究首次为扩散LLMs建立了上下文外推方法,同时提供了对推动未来长上下文扩散LLMs研究至关重要的理论见解和实证基准。
尽管在复杂推理方面取得了显著进展,当前的大型语言模型(LLMs)通常孤立运作——将每个问题视为独立尝试,而不积累或整合经验知识。相比之下,专家级问题解决者——如奥林匹克竞赛或编程竞赛团队——则利用丰富的经验网络:吸收教练的指导,从过往问题中培养直觉,运用工具使用和库功能的知识,根据同伴的专业知识和经验调整策略,通过试错不断精炼推理,甚至在比赛期间从其他相关问题中学习。我们引入了Xolver,一个无需训练的多智能体推理框架,它为黑箱LLM配备了持久且不断演化的整体经验记忆。Xolver整合了多种经验模式,包括外部与自我检索、工具使用、协作互动、智能体驱动的评估以及迭代优化。通过在推理时学习相关策略、代码片段和抽象推理模式,Xolver避免了从零开始生成解决方案——标志着从孤立推理向经验感知语言智能体的转变。基于开源权重和专有模型构建,Xolver在多个方面持续超越专门化的推理智能体。即便采用轻量级骨干(如QWQ-32B),它也常常超越包括Qwen3-235B、Gemini 2.5 Pro、o3和o4-mini-high在内的先进模型。使用o3-mini-high时,它在GSM8K(98.1%)、AIME'24(94.4%)、AIME'25(93.7%)、Math-500(99.8%)和LiveCodeBench-V5(91.6%)上创下新纪录,凸显了整体经验学习作为迈向具备专家级推理能力的通用智能体的关键一步。代码与数据可在https://kagnlp.github.io/xolver.github.io/获取。
基於可驗證獎勵的強化學習(RLVR)已成為提升大型語言模型(LLMs)推理能力的一種前景廣闊的範式。然而,其有效性被一個關鍵悖論所籠罩:經RLVR調優的模型在解決方案發現的Pass@K指標上往往表現不如其基礎模型,這引發了一種假設,即RLVR僅僅是重新加權現有的推理路徑,而犧牲了推理的多樣性。在本研究中,我們通過識別問題的根源來解決這一矛盾:Pass@K指標本身作為推理的衡量標準存在缺陷,因為它將正確的最終答案歸功於可能源自不準確或不完整的思維鏈(CoTs)。為此,我們引入了一種更精確的評估指標——CoT-Pass@K,該指標要求推理路徑和最終答案都必須正確。我們提供了一個新的理論基礎,形式化地闡述了RLVR與傳統強化學習不同,其獨特結構旨在激勵邏輯完整性。我們的實證結果支持這一觀點:使用CoT-Pass@K,我們觀察到RLVR能夠激勵正確推理的泛化,適用於所有K值。此外,通過分析訓練動態,我們發現這種增強推理能力在訓練過程早期便已顯現,並能平穩地泛化。我們的工作為RLVR的角色提供了清晰的視角,提供了一種更可靠的評估方法,並證實了其真正推進機器推理的潛力。
GPT-4o類大型多模態模型(LMMs)的出現,推動了整合文本、視覺和語音模態以支持更靈活多模態交互的探索。現有的LMMs通常沿序列維度連接各模態的表徵,並將其輸入大型語言模型(LLM)骨幹中。雖然序列維度連接對於模態整合來說直觀易行,但它往往嚴重依賴大規模數據來學習模態對齊。本文旨在更有針對性地建模模態間的關係,從而實現更高效和靈活的模態對齊。為此,我們提出了Stream-Omni,這是一個具有高效模態對齊能力的大型語言-視覺-語音模型,能夠同時支持多種模態組合下的交互。Stream-Omni採用LLM作為骨幹,並根據視覺和語音與文本的關係進行對齊。對於在語義上與文本互補的視覺,Stream-Omni使用序列維度連接來實現視覺-文本對齊。對於在語義上與文本一致的語音,Stream-Omni引入了基於CTC的層維度映射來實現語音-文本對齊。通過這種方式,Stream-Omni能夠以更少的數據(尤其是語音數據)實現模態對齊,從而將文本能力遷移到其他模態。在多個基準測試上的實驗表明,Stream-Omni在視覺理解、語音交互以及基於視覺的語音交互任務中表現出色。得益於層維度映射,Stream-Omni在語音交互過程中能夠同時提供中間文本輸出(如ASR轉錄和模型響應),為用戶提供全面的多模態體驗。
視覺資訊抽取(VIE)將非結構化的文件圖像轉換為如JSON等結構化格式,這對於報告分析和線上諮詢等醫療應用至關重要。傳統方法依賴於光學字符識別(OCR)和語言模型,而端到端的多模態模型則提供直接的JSON生成。然而,特定領域的架構和高昂的註釋成本限制了這些方法在醫療VIE中的效果。我們基於可驗證獎勵的強化學習(RLVR)框架來應對這些挑戰,僅使用100個註釋樣本。我們的方法確保了數據集的多樣性,通過平衡精確率與召回率的獎勵機制來減少幻覺並提高字段覆蓋率,並採用創新的採樣策略來增強推理能力。通過使用我們的RLVR方法微調Qwen2.5-VL-7B,我們在醫療VIE任務中達到了最先進的性能,顯著提升了F1分數、精確率和召回率。雖然我們的模型在與醫療數據集相似的任務上表現出色,但在不相似的任務上性能下降,這凸顯了特定領域優化的必要性。案例研究進一步展示了在訓練和推理過程中進行推理對於VIE的價值。
在強化學習(RL)中,平衡探索與利用是一個核心目標。儘管近期在提升語言模型(LM)推理能力方面取得了進展,但大多數方法偏向於利用,且越來越頻繁地遭遇性能瓶頸。在本研究中,我們重新審視了熵——RL中探索的信號——並探討其與LM中探索性推理的關係。通過實證分析,我們發現高熵區域與三種類型的探索性推理行為之間存在強烈的正相關:(1) 決定或連接邏輯步驟的關鍵詞彙,(2) 如自我驗證和修正等反思行為,以及(3) 基礎LM未充分探索的罕見行為。基於此,我們對標準RL進行了最小程度的修改,僅增加一行代碼:在優勢函數中加入基於熵的項。與傳統的最大熵方法通過促進不確定性來鼓勵探索不同,我們通過促進更長、更深的推理鏈來鼓勵探索。值得注意的是,即使在極大的K值下評估,我們的方法在Pass@K指標——LM推理能力的上界估計器——上仍取得了顯著提升,推動了LM推理的邊界。
现代人工智能面临的一大挑战,在于如何主要通过观察来学习理解世界并采取行动。本文探讨了一种自监督方法,该方法将互联网规模的视频数据与少量交互数据(机器人轨迹)相结合,以开发出能够理解、预测和规划物理世界的模型。我们首先在一个包含超过100万小时互联网视频的视频和图像数据集上,对无动作的联合嵌入预测架构V-JEPA 2进行了预训练。V-JEPA 2在运动理解方面表现出色(在Something-Something v2数据集上达到77.3的top-1准确率),并在人类动作预测上实现了最先进的性能(在Epic-Kitchens-100数据集上达到39.7的召回率@5),超越了以往针对特定任务的模型。此外,在将V-JEPA 2与大型语言模型对齐后,我们在80亿参数规模上展示了在多个视频问答任务上的最先进性能(例如,在PerceptionTest上达到84.0,在TempCompass上达到76.9)。最后,我们展示了如何通过使用Droid数据集中不到62小时的无标签机器人视频对潜在动作条件世界模型V-JEPA 2-AC进行后训练,将自监督学习应用于机器人规划任务。我们在两个不同实验室的Franka机械臂上零样本部署了V-JEPA 2-AC,并利用图像目标规划实现了物体的抓取和放置。值得注意的是,这一成果是在未从这些环境中的机器人收集任何数据,且未进行任何任务特定训练或奖励的情况下实现的。本研究表明,通过从网络规模数据和少量机器人交互数据中进行自监督学习,可以构建出能够在物理世界中进行规划的世界模型。
擴散模型和流模型已成為最先進的生成建模方法,但它們需要多次採樣步驟。一致性模型可以將這些模型蒸餾成高效的一步生成器;然而,與基於流和擴散的方法不同,當增加步驟數時,其性能不可避免地下降,這一點我們在理論和實驗中都進行了展示。流映射通過在單一步驟中連接任意兩個噪聲水平來推廣這些方法,並在所有步驟數下保持有效。在本文中,我們引入了兩種新的連續時間目標函數來訓練流映射,並提出了額外的創新訓練技術,從而推廣了現有的一致性和流匹配目標。我們進一步證明,自動引導可以提升性能,即在蒸餾過程中使用低質量模型進行引導,並且通過對抗性微調可以實現額外的性能提升,同時樣本多樣性的損失最小。我們廣泛驗證了我們的流映射模型(稱為Align Your Flow),在具有挑戰性的圖像生成基準測試中取得了最先進的少步生成性能,無論是在ImageNet 64x64還是512x512上,均使用了小型且高效的神經網絡。最後,我們展示了文本到圖像的流映射模型,在文本條件合成中超越了所有現有的非對抗性訓練的少步採樣器。
近期在長鏈思維(CoT)推理模型上的進展,雖然提升了處理複雜任務的表現,卻也面臨過度思考的問題,尤其是在簡單問題上產生多餘的推理步驟。本文重新審視了長鏈與短鏈CoT模型的推理模式,發現短鏈CoT模式能高效地提供簡潔的推理,而長鏈CoT模式則在短鏈模式難以應對的挑戰性場景中表現出色。為了讓模型能同時利用這兩種模式,我們提出了無問題微調(QFFT),這是一種在訓練過程中移除輸入問題,僅從長鏈CoT回應中學習的微調方法。此方法使模型能自適應地採用兩種推理模式:優先使用短鏈CoT模式,僅在必要時啟動長鏈CoT模式。在多個數學數據集上的實驗表明,QFFT將平均回應長度減少超過50%,同時達到與監督微調(SFT)相當的性能。此外,在噪聲、域外及低資源情境下,QFFT展現出優於SFT的表現。
我们推出了TestCase-Eval,这是一个用于系统评估大语言模型(LLMs)在测试用例生成方面表现的新基准。TestCase-Eval包含了来自Codeforces平台的500个算法问题及100,000个人工编写的解决方案。该基准聚焦于两大核心任务:(1) 故障覆盖率,衡量LLM生成的测试集如何有效探测多样化的输入场景,并覆盖广泛的潜在故障模式;(2) 故障暴露度,评估LLM能否设计出针对性的测试输入,以揭示特定错误代码实现。我们对19个最先进的开源及专有LLM在TestCase-Eval上进行了全面评估,深入剖析了它们在为算法问题生成有效测试用例方面的优势与局限。
分詞化對輸入文本施加了固定的粒度,這限制了語言模型處理數據的方式以及其預測未來的範圍。字節對編碼(BPE)及類似方案一次性分割文本,建立靜態詞彙表,並使模型固守於此選擇。我們通過引入一種自迴歸的U-Net來緩解這種僵化性,該網絡在訓練過程中學會嵌入自己的分詞。網絡讀取原始字節,將其聚合成詞,再成對組合,直至最多四個詞,從而獲得序列的多尺度視角。在更深層次,模型需要預測更遠的未來——預測接下來的幾個詞而非下一個字節——因此更深層次專注於更廣泛的語義模式,而較淺層次則處理細微細節。在精心調控預訓練計算資源的情況下,淺層次結構與強大的BPE基線模型表現相當,而更深層次結構則展現出良好的趨勢。由於分詞化現在內置於模型中,同一系統既能處理字符級任務,也能在低資源語言間傳遞知識。
硬體生態系統正快速演進,人們對於以快速、靈活且正確的方式在不同指令集架構(ISA)之間轉譯低階程式,以提升現有程式碼的可攜性與長期可用性,展現出日益濃厚的興趣。這類轉譯問題中,特別具有挑戰性的是在複雜指令集(CISC)與精簡指令集(RISC)硬體架構之間進行轉譯,這源於指令複雜度、記憶體模型及執行範式上的根本差異。在本研究中,我們介紹了GG(Guaranteed Guess),這是一個以ISA為中心的轉譯管線,它結合了預訓練大型語言模型(LLMs)的翻譯能力與成熟軟體測試結構的嚴謹性。我們的方法利用LLM從一個ISA生成到另一個ISA的候選翻譯,並將這些翻譯嵌入軟體測試框架中,以建立對翻譯結果的可量化信心。我們在兩個多樣化的資料集上評估了GG方法,確保單元測試的高程式碼覆蓋率(>98%),並在HumanEval程式上實現了99%的功能/語意正確性,在BringupBench程式上則達到了49%。此外,我們將我們的方法與Apple Silicon上的最新Rosetta 2框架進行比較,展示了我們轉譯後的程式碼在運行時效能上快1.73倍,能源效率提升1.47倍,記憶體使用效率提高2.41倍,證明了GG在實際CISC到RISC轉譯任務中的有效性。我們將開源我們的程式碼、資料、模型與基準測試,為ISA層級的程式碼轉譯研究建立共同基礎。
視覺-語言-動作(VLA)模型,尤其是基於擴散架構的模型,展現了對具身智能的變革性潛力,但由於其固有的廣泛冗餘及推理時的高計算與記憶體需求,其應用受到嚴重限制。現有的加速努力往往針對孤立的低效問題,此類零散解決方案通常無法全面應對整個VLA流程中的多樣化計算與記憶體瓶頸,從而限制了實際部署的可行性。我們提出了EfficientVLA,這是一個結構化且無需訓練的推理加速框架,通過協同利用多方面的冗餘,系統性地消除這些障礙。EfficientVLA協同整合了三種針對性策略:(1) 基於層間冗餘分析,從語言模塊中剪枝功能上無關緊要的層;(2) 通過任務感知策略優化視覺處理路徑,選擇一組緊湊且多樣化的視覺標記,平衡任務關鍵性與信息覆蓋範圍;(3) 在基於迭代擴散的動作頭中,通過策略性地緩存和重用關鍵中間特徵,減輕時間上的計算冗餘。我們將此方法應用於標準VLA模型CogACT,在SIMPLER基準測試中實現了1.93倍的推理速度提升,並將浮點運算次數(FLOPs)降低至28.9%,成功率僅下降0.6%。
大型推理模型(LRMs)已取得顯著成功,然而它們常產生冗長且不必要的推理鏈。我們將此問題的核心歸因於「無效思考」——模型在得出正確答案後,往往會反覆檢查其工作。為解決這一特定效率問題,我們超越效能與效率的一般原則,提出了兩個新的細粒度原則:簡潔性(Brevity),主張消除冗餘;以及充分性(Sufficiency),確保關鍵推理步驟得以保留。基於這些原則,我們引入了LC-R1,這是一種基於群組相對策略優化(GRPO)的訓練後方法。LC-R1創新地結合了用於整體簡潔性的長度獎勵,以及專門設計用於移除思考過程中無效部分的壓縮獎勵。在多個推理基準上的廣泛實驗表明,LC-R1在序列長度上實現了顯著減少(約50%),而準確率僅略有下降(約2%),在帕累托前沿上達到了優先考慮高壓縮的有利平衡點。我們的分析進一步驗證了LC-R1的穩健性,並為開發更強大且計算效率更高的LRMs提供了寶貴見解。我們的代碼已發佈於https://github.com/zxiangx/LC-R1。
我們推出xbench,這是一個動態的、與專業領域對齊的評估套件,旨在彌合AI代理能力與現實世界生產力之間的差距。現有的基準測試往往專注於孤立的技術技能,可能無法準確反映代理在專業環境中提供的經濟價值。為解決這一問題,xbench針對具有商業重要性的領域,由行業專業人士定義評估任務。我們的框架創建了與生產力價值高度相關的指標,能夠預測技術市場契合度(TMF),並促進產品能力隨時間的追蹤。作為初步實施,我們展示了兩個基準測試:招聘和營銷。在招聘方面,我們從真實的獵頭業務場景中收集了50項任務,以評估代理在公司映射、信息檢索和人才搜尋方面的能力。在營銷方面,我們評估代理匹配影響者與廣告商需求的能力,使用一個包含836名候選影響者的精選池,對50項廣告商需求進行性能評估。我們展示了當代領先代理的初步評估結果,為這些專業領域建立了基準。我們持續更新的評估集和評估結果可在https://xbench.org獲取。
大型語言模型(LLMs)利用外部工具的能力,使其能夠應對日益多樣化的任務。然而,隨著任務變得更加複雜且具有長遠性,繁瑣的工具使用過程可能引發各種意外錯誤。因此,如何有效處理這些錯誤,包括識別、診斷及從中恢復,已成為推進工具學習的關鍵研究方向。在本研究中,我們首先廣泛分析了在多個競爭性工具評估基準上,函數調用過程中遇到的錯誤類型。基於此,我們引入了CRITICTOOL,一個專為工具學習設計的全面批判評估基準。通過採用新穎的數據集構建進化策略,CRITICTOOL涵蓋了多樣化且複雜度各異的工具使用錯誤,更貼近現實場景。我們在CRITICTOOL上進行了廣泛實驗,驗證了所構建基準策略的泛化能力和有效性。同時,我們深入分析了不同LLMs在工具反思能力上的表現,為LLMs工具學習領域提供了新的視角。相關代碼已公開於https://github.com/Shellorley0513/CriticTool{https://github.com/Shellorley0513/CriticTool}。
我們展示了如何利用低質量、合成以及分佈外圖像來提升擴散模型的品質。通常,擴散模型是在經過精心篩選的數據集上進行訓練的,這些數據集來自網絡及其他來源的高度過濾數據池。我們揭示了那些常被捨棄的低質量圖像中蘊含的巨大價值。我們提出了Ambient Diffusion Omni,這是一個簡單而原則性的框架,用於訓練能夠在訓練過程中從所有可用圖像中提取信號的擴散模型。我們的框架利用了自然圖像的兩個特性——頻譜冪律衰減和局部性。我們首先通過成功訓練使用高斯模糊、JPEG壓縮和運動模糊合成破壞的圖像的擴散模型,驗證了我們的框架。隨後,我們運用該框架在ImageNet FID上達到了最先進的水平,並在文本到圖像生成建模中展示了圖像質量和多樣性的顯著提升。核心洞見在於,噪聲緩解了期望高質量分佈與我們實際觀測到的混合分佈之間的初始偏斜。我們通過分析在擴散時間內從有偏數據學習與有限無偏數據學習之間的權衡,為我們的方法提供了嚴謹的理論依據。
我們研究利用稀疏自編碼器(SAEs)實現理論基礎的特徵恢復,以解釋大型語言模型所面臨的挑戰。現有的SAE訓練算法往往缺乏嚴謹的數學保證,並存在超參數敏感性和不穩定性等實際限制。為解決這些問題,我們首先提出了一個新穎的統計框架來處理特徵恢復問題,該框架通過將多義特徵建模為底層單義概念的稀疏混合,引入了一種新的特徵可識別性概念。基於此框架,我們提出了一種基於「偏差適應」的新SAE訓練算法,該技術通過自適應調整神經網絡的偏差參數來確保適當的激活稀疏性。我們從理論上證明,當輸入數據來自我們提出的統計模型時,該算法能夠正確恢復所有單義特徵。此外,我們開發了一種改進的實證變體——群組偏差適應(GBA),並展示了其在應用於參數高達15億的大型語言模型時相較於基準方法的優越性能。這項工作通過提供首個具有理論恢復保證的SAE算法,為揭示SAE訓練的奧秘邁出了基礎性的一步,從而通過增強機制可解釋性推動了更透明、可信賴的人工智能系統的發展。
多樣化大型語言模型(LLMs)的迅速崛起,促進了LLM路由器的發展,這些路由器負責將用戶查詢分配給最合適的模型。然而,現有的LLM路由器通常執行單輪、一對一的映射(即,將每個查詢單獨分配給一個模型),這限制了它們處理需要多個LLMs互補優勢的複雜任務的能力。在本文中,我們提出了Router-R1,這是一個基於強化學習(RL)的框架,將多LLM路由和聚合制定為一個序列決策過程。Router-R1將路由器本身實例化為一個能力強大的LLM,利用其推理能力在“思考”行動(內部審議)與“路由”行動(動態模型調用)之間交替進行,並將每個響應整合到其不斷演變的上下文中。為了指導學習,我們採用了一個輕量級的基於規則的獎勵,包括格式獎勵、最終結果獎勵和一個新穎的成本獎勵,用於性能和成本之間的權衡優化,開闢了一條通過RL優化性能-成本權衡的途徑。Router-R1還僅基於簡單的模型描述符(如定價、延遲和示例性能)進行條件設置,從而實現了對未見模型選擇的強大泛化能力。在七個通用和多跳QA基準測試上的實驗表明,Router-R1在保持強大泛化能力和成本管理的同時,優於多個強基線,實現了卓越的性能。代碼可在https://github.com/ulab-uiuc/Router-R1獲取。
时空定位对于跨领域的精确交互至关重要,从生物研究到自主导航及交互界面均不例外。当前基于视频的方法虽然在追踪方面表现出色,却缺乏大型语言模型所具备的复杂推理能力,这限制了其上下文理解与泛化能力。我们推出了VideoMolmo,一个专为基于文本描述的细粒度时空指向而定制的大型多模态模型。基于Molmo架构,VideoMolmo引入了一个利用注意力机制的时间模块,使每一帧都以前序帧为条件,确保时间一致性。此外,我们新颖的时间掩码融合管道采用SAM2进行双向点传播,显著增强了视频序列间的连贯性。这一两步分解策略——即首先使用LLM生成精确的指向坐标,随后依赖序列掩码融合模块生成连贯的分割——不仅简化了语言模型的任务,还提升了可解释性。鉴于缺乏合适的数据集,我们精心整理了一个包含72k视频-字幕对及100k对象点标注的综合数据集。为评估VideoMolmo的泛化能力,我们引入了VPoS-Bench,一个涵盖五个现实场景的具有挑战性的分布外基准:细胞追踪、自我中心视觉、自动驾驶、视频-GUI交互及机器人学。我们还在Referring Video Object Segmentation(Refer-VOS)和Reasoning VOS任务上评估了我们的模型。与现有模型相比,VideoMolmo在时空指向准确性和推理能力上均有显著提升。我们的代码和模型已公开于https://github.com/mbzuai-oryx/VideoMolmo。
我們推出AgentSynth,這是一個可擴展且成本效益高的流程,用於自動合成高質量的任務和軌跡數據集,適用於通用計算機使用代理。利用信息不對稱性,AgentSynth構建了在生成時簡單但在組合成長期任務時顯著更具挑戰性的子任務,從而能夠創建超過6,000個多樣且現實的任務。我們的流程始於一個基於LLM的任務提議者,由一個角色指導,隨後是一個執行代理,完成任務並記錄軌跡。這個過程重複迭代,形成一系列子任務,然後由一個單獨的代理總結成一個可控制難度的複合任務。AgentSynth的一個關鍵優勢是其能夠通過改變子任務的數量來精確調節任務複雜性。實證評估顯示,最先進的LLM代理在難度級別1時成功率為18%,而在級別6時僅為4%,突顯了基準的難度和區分能力。此外,我們的流程實現了每軌跡平均成本僅為0.60美元,比人工註釋便宜幾個數量級。我們的代碼和數據公開在https://github.com/sunblaze-ucb/AgentSynth。
我們推出Ring-lite,這是一個基於專家混合(Mixture-of-Experts, MoE)的大型語言模型,通過強化學習(Reinforcement Learning, RL)進行優化,以實現高效且穩健的推理能力。該模型建立在公開可用的Ling-lite模型基礎上,這是一個擁有168億參數、激活參數達27.5億的模型。我們的方法在具有挑戰性的基準測試(如AIME、LiveCodeBench、GPQA-Diamond)上,與最先進(State-of-the-Art, SOTA)的小規模推理模型性能相當,而僅激活了同類模型所需參數的三分之一。為此,我們引入了一個結合蒸餾與RL的聯合訓練管道,揭示了MoE RL訓練中未記錄的挑戰。首先,我們識別出RL訓練期間的優化不穩定性,並提出了約束上下文計算策略優化(Constrained Contextual Computation Policy Optimization, C3PO),這是一種通過算法-系統協同設計方法來增強訓練穩定性並提高計算吞吐量的新方法。其次,我們實證表明,基於熵損失選擇蒸餾檢查點進行RL訓練,而非驗證指標,能在後續RL訓練中實現更優的性能-效率權衡。最後,我們開發了一個兩階段訓練範式,以協調多領域數據的整合,解決了在混合數據集訓練中出現的領域衝突問題。我們將發布模型、數據集及代碼。
人類移動模擬在諸多現實應用中扮演著關鍵角色。近期,為克服傳統數據驅動方法的局限,研究者探索利用大型語言模型(LLMs)的常識知識與推理能力,以加速人類移動模擬。然而,這些方法存在若干關鍵缺陷,包括對城市空間建模不足,以及與個體移動模式和群體移動分佈的整合不佳。針對這些挑戰,我們提出了基於CityGPT的移動模擬代理框架(CAMS),這是一個利用語言基礎模型來模擬城市空間中人類移動的代理框架。CAMS包含三個核心模塊:MobExtractor用於提取模板移動模式並基於用戶檔案合成新模式,GeoGenerator考慮集體知識生成錨點並使用增強版CityGPT生成候選城市地理空間知識,TrajEnhancer基於移動模式檢索空間知識並通過DPO生成與真實軌跡偏好對齊的軌跡。在真實數據集上的實驗表明,CAMS在不依賴外部提供的地理空間信息的情況下,實現了卓越的性能。此外,通過全面建模個體移動模式和群體移動約束,CAMS生成了更為真實且合理的軌跡。總體而言,CAMS確立了一種將代理框架與具備城市知識的LLMs相結合的人類移動模擬新範式。
我們研究了一種基於後綴的越獄攻擊——這是一類針對大型語言模型(LLMs)的強大攻擊手段,通過優化對抗性後綴來繞過安全對齊機制。聚焦於廣泛應用的基礎性GCG攻擊(Zou等人,2023),我們觀察到後綴的有效性存在差異:某些後綴顯著更具通用性——能夠泛化至多種未見過的有害指令——而其他則不然。我們首先揭示,GCG的有效性源於一個淺層但關鍵的機制,該機制建立在從對抗性後綴到生成前最終聊天模板令牌的信息流之上。量化這一機制在生成過程中的主導作用時,我們發現GCG不規則且激進地劫持了上下文處理過程。關鍵的是,我們將劫持與通用性現象聯繫起來,更通用的後綴往往具有更強的劫持能力。隨後,我們展示了這些洞見的實際應用價值:GCG的通用性可以在不增加計算成本的情況下高效提升(在某些情況下可達五倍),同時也能精準地加以緩解,至少將攻擊成功率減半而僅帶來最小的效用損失。我們在http://github.com/matanbt/interp-jailbreak上公開了我們的代碼和數據。
現代機器學習面臨的最深刻挑戰之一,是如何在稀有和代表性不足特徵的長尾分佈上表現良好。大型通用模型雖然針對多種任務進行訓練,但在高頻使用場景中表現最佳。訓練完成後,模型很難適應訓練語料庫中代表性不足的特定使用場景。依賴提示工程或少量樣例來最大化特定測試案例的輸出質量,往往令人沮喪,因為模型可能對微小變化極為敏感,以不可預測的方式反應,或依賴固定的系統提示來維持性能。在本研究中,我們提出疑問:「我們能否優化訓練協議,以同時提升推理時的可控性和在代表性不足使用場景上的表現?」我們重新審視訓練與推理技術之間的界限,以改善長尾性能,同時為用戶提供一組模型被訓練為能夠響應的控制槓桿。我們創建了數據特徵和任務來源的詳細分類法,以在推理時顯式控制生成屬性並隱式條件化生成。我們對基礎模型進行微調,使其能夠自動推斷這些標記,從而使它們在推理時成為可選項。這種原則性且靈活的方法帶來了顯著的性能提升,尤其是在訓練分佈長尾的樣例上。我們觀察到,使用我們的標記,在開放式生成質量上平均提升了5.7%的勝率,而在代表性不足的領域中,提升超過9.1%。我們還觀察到,在如代碼修復等代表性不足的任務上,相對提升高達14.1%,在長度指令遵循評估上,絕對改進達35.3%。
對齊已不再是奢侈品,而是必需品。隨著大型語言模型(LLMs)進入教育、醫療、治理和法律等高風險領域,其行為必須可靠地反映與人類價值觀一致的安全約束。然而,目前的評估主要依賴於行為代理指標,如拒絕率、G-Eval分數和毒性分類器,這些指標都存在關鍵的盲點。對齊模型往往容易受到越獄攻擊、生成隨機性和對齊偽造的影響。 為解決這一問題,我們引入了對齊質量指數(AQI)。這一新穎的幾何且提示不變的指標,通過分析潛在空間中安全與不安全激活的分離,實證評估LLM的對齊情況。AQI結合了多種公式下的戴維斯-博爾丁分數(DBS)、鄧恩指數(DI)、謝-貝尼指數(XBI)和卡林斯基-哈拉巴斯指數(CHI)等度量,捕捉聚類質量以檢測隱藏的對齊偏差和越獄風險,即使輸出看似合規。AQI還可作為對齊偽造的早期預警信號,提供一種強大的、解碼不變的行為無關安全審計工具。 此外,我們提出了LITMUS數據集,以促進在這些挑戰性條件下的穩健評估。在LITMUS上對不同模型(在DPO、GRPO和RLHF條件下訓練)進行的實證測試表明,AQI與外部評判者具有相關性,並能揭示拒絕指標所遺漏的漏洞。我們公開了我們的實現,以促進該領域的未來研究。
情境强化学习(In-context Reinforcement Learning, ICRL)作为一种通过提示条件调整RL代理以适应下游任务的新兴范式,展现出巨大潜力。然而,在RL领域充分利用情境学习仍面临两大挑战:状态-动作-奖励数据固有的多模态特性,以及决策任务的多样性和异质性。为应对这些挑战,我们提出了T2MIR(面向情境RL的令牌与任务级混合专家模型),这一创新框架将混合专家(Mixture-of-Experts, MoE)的架构创新引入基于Transformer的决策模型中。T2MIR以前馈层为替代,构建了两层并行结构:令牌级MoE,旨在捕捉跨多模态输入令牌的独特语义;任务级MoE,则将多样任务路由至专门专家,以管理广泛的任务分布,同时缓解梯度冲突。为增强任务级路由能力,我们引入了一种对比学习方法,最大化任务与其路由表示间的互信息,从而更精准地捕捉任务相关信息。两个MoE组件的输出被拼接后输入下一层。全面实验表明,T2MIR显著提升了情境学习能力,并超越了多种基线模型。我们将MoE的潜力与前景带入ICRL,提供了一种简单且可扩展的架构增强方案,推动ICRL向语言与视觉领域的成就更进一步迈进。代码已发布于https://github.com/NJU-RL/T2MIR。
蚊媒疾病構成全球重大健康威脅,需要及早發現並主動控制孳生地以預防疫情爆發。本文介紹了VisText-Mosquito,這是一個整合視覺與文本數據的多模態數據集,旨在支持蚊蟲孳生地分析的自動化檢測、分割及推理。該數據集包含1,828張用於目標檢測的註釋圖像、142張用於水面分割的圖像,以及與每張圖像相關的自然語言推理文本。在目標檢測方面,YOLOv9s模型達到了最高的精確度0.92926和mAP@50值0.92891;而YOLOv11n-Seg在分割任務中則取得了0.91587的精確度和0.79795的mAP@50值。對於推理生成,我們微調後的BLIP模型最終損失為0.0028,BLEU得分為54.7,BERTScore為0.91,ROUGE-L為0.87。此數據集與模型框架強調了“預防勝於治療”的主題,展示了基於AI的檢測如何主動應對蚊媒疾病風險。數據集及實現代碼已公開於GitHub:https://github.com/adnanul-islam-jisun/VisText-Mosquito。
本研究提出了一個可泛化的框架,用於將相對深度轉換為度量深度。當前的單目深度估計方法主要分為度量深度估計(MMDE)和相對深度估計(MRDE)。MMDE以度量尺度估計深度,但通常局限於特定領域。MRDE在不同領域間具有良好的泛化能力,但其尺度不確定性阻礙了下游應用。為此,我們旨在構建一個框架來解決尺度不確定性問題,並將相對深度轉換為度量深度。先前的方法使用語言作為輸入,並估計兩個因子來進行重新縮放。我們的方法TR2M則同時利用文本描述和圖像作為輸入,並估計兩個重新縮放映射,以在像素級別將相對深度轉換為度量深度。通過跨模態注意力模塊融合來自兩種模態的特徵,以更好地捕捉尺度信息。我們設計了一種策略來構建和篩選置信的偽度量深度,以實現更全面的監督。此外,我們還開發了面向尺度的對比學習,利用深度分佈作為指導,促使模型學習與尺度分佈一致的內在知識。TR2M僅利用少量可訓練參數,在多個領域的數據集上進行訓練,實驗不僅展示了TR2M在已知數據集上的優異性能,還揭示了其在五個未見數據集上卓越的零樣本能力。我們展示了在語言輔助下,將相對深度逐像素轉換為度量深度的巨大潛力。(代碼可在以下網址獲取:https://github.com/BeileiCui/TR2M)
開源基礎模型已迅速獲得廣泛採用與發展,賦能於多樣化領域中的強大通用能力。然而,針對特定領域或個性化任務對大型基礎模型進行微調,由於其顯著的內存開銷遠超推理所需,對大多數用戶而言仍成本過高。我們提出了EMLoC,一種基於模擬器的內存高效微調框架,結合LoRA校正技術,使得模型微調能在與推理相同的內存預算內完成。EMLoC利用激活感知的奇異值分解(SVD)在小型下游校準集上構建任務特定的輕量級模擬器。隨後,通過LoRA在此輕量級模擬器上進行微調。為解決原始模型與壓縮模擬器之間的不對齊問題,我們提出了一種新穎的補償算法來校正微調後的LoRA模塊,從而可將其合併回原始模型用於推理。EMLoC支持靈活的壓縮比和標準訓練流程,使其能適應廣泛的應用場景。大量實驗表明,EMLoC在多個數據集和模態上均優於其他基線方法。此外,無需量化,EMLoC便能在單塊24GB消費級GPU上實現對380億參數模型的微調,為個體用戶帶來了高效且實用的模型適應方案。
圖檢索增強生成(Graph Retrieval Augmented Generation, GraphRAG)通過顯式建模知識關係,有效提升了大型語言模型(Large Language Models, LLMs)在專業領域中的外部知識整合能力,從而改善了生成內容的事實準確性與質量。然而,現有方法存在兩大固有局限:其一,信息聚合效率低下,依賴單一代理與固定迭代模式,難以自適應地捕捉圖數據中的多層次文本、結構及度信息;其二,推理機制僵化,採用預設推理方案,無法動態調整推理深度,亦無法實現精確的語義校正。為克服這些局限,我們提出了基於多代理協作的GraphRAG方法——圖顧問(Graph Counselor)。該方法利用自適應圖信息提取模塊(Adaptive Graph Information Extraction Module, AGIEM),其中規劃、思考與執行代理協同工作,精確建模複雜圖結構並動態調整信息提取策略,解決了多層次依賴建模與自適應推理深度的挑戰。此外,多視角自我反思(Self-Reflection with Multiple Perspectives, SR)模塊通過自我反思與逆向推理機制,提升了推理結果的準確性與語義一致性。實驗表明,Graph Counselor在多項圖推理任務中均優於現有方法,展現出更高的推理準確性與泛化能力。我們的代碼已公開於https://github.com/gjq100/Graph-Counselor.git。
在現實世界中部署大型且複雜的策略,需要具備根據情境需求調整策略的能力。最常見的調整方法,如目標條件化,通常需要在訓練機器人策略時考慮測試時目標的分佈。為克服這一限制,我們提出了DynaGuide,這是一種在擴散去噪過程中利用外部動力學模型進行指導的策略調整方法。DynaGuide將動力學模型與基礎策略分離,這賦予了它多項優勢,包括能夠朝向多個目標進行調整、增強基礎策略中表現不足的行為,以及在低質量目標下保持穩健性。獨立的指導信號還使得DynaGuide能夠與現成的預訓練擴散策略協同工作。我們通過一系列模擬和真實實驗,展示了DynaGuide相較於其他調整方法的性能和特點,在一組CALVIN關節任務中達到了70%的平均調整成功率,並在低質量目標指導下,其表現優於目標條件化方法5.4倍。此外,我們還成功調整了一款現成的真實機器人策略,使其表現出對特定物體的偏好,甚至創造了新穎的行為。更多視頻和資訊可訪問項目網站:https://dynaguide.github.io。