ChatPaper.aiChatPaper.ai
首頁

arXiv

HuggingFace

定價賬戶工作台

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究論文每日精選

每日精選AI研究論文及翻譯

TabSTAR:具備語義目標感知表徵的基礎表格模型
TabSTAR: A Foundation Tabular Model With Semantically Target-Aware Representations

May 23, 2025
Alan Arazi, Eilam Shapira, Roi Reichart
1126

儘管深度學習在多個領域取得了顯著成功,但在表格學習任務上,其表現歷來不及梯度提升決策樹(GBDTs),後者仍佔據主導地位。然而,近期的進展正為表格基礎模型(Tabular Foundation Models)鋪平道路,這些模型能夠利用現實世界的知識並在多樣化數據集上實現泛化,尤其是在數據包含自由文本的情況下。雖然將語言模型能力融入表格任務已有探索,但現有方法大多採用靜態、目標無關的文本表示,限制了其效能。我們介紹了TabSTAR:一種具備語義目標感知表示的基礎表格模型。TabSTAR旨在實現帶有文本特徵的表格數據的遷移學習,其架構不含數據集特定參數。它解凍了預訓練的文本編碼器,並以目標標記作為輸入,這些標記為模型提供了學習任務特定嵌入所需的上下文。TabSTAR在已知的帶有文本特徵的分類任務基準測試中,對中型和大型數據集均達到了最先進的性能,其預訓練階段展現了數據集數量上的規模化定律,為進一步提升性能提供了途徑。

QwenLong-L1:迈向基于强化学习的长上下文大型推理模型
QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning

May 23, 2025
Fanqi Wan, Weizhou Shen, Shengyi Liao, Yingcheng Shi, Chenliang Li, Ziyi Yang, Ji Zhang, Fei Huang, Jingren Zhou, Ming Yan
893

近期的大型推理模型(LRMs)通過強化學習(RL)展現了強大的推理能力。這些改進主要體現在短上下文推理任務中。相比之下,將LRMs擴展到能夠有效處理和推理長上下文輸入的RL方法仍然是一個關鍵的未解難題。為彌合這一差距,我們首先形式化了長上下文推理RL的範式,並識別了訓練效率低下和優化過程不穩定的關鍵挑戰。為解決這些問題,我們提出了QwenLong-L1框架,該框架通過漸進式上下文縮放將短上下文LRMs適應於長上下文場景。具體而言,我們利用一個熱身監督微調(SFT)階段來建立穩健的初始策略,隨後採用課程引導的分階段RL技術來穩定策略演進,並通過難度感知的回顧採樣策略來激勵策略探索。在七個長上下文文檔問答基準上的實驗表明,QwenLong-L1-32B超越了OpenAI-o3-mini和Qwen3-235B-A22B等旗艦LRMs,其性能與Claude-3.7-Sonnet-Thinking相當,展示了在最先進的LRMs中的領先性能。這項工作推動了實用長上下文LRMs的發展,使其能夠在信息密集的環境中進行穩健的推理。

將大型語言模型代理蒸餾至小型模型,並結合檢索與程式碼工具
Distilling LLM Agent into Small Models with Retrieval and Code Tools

May 23, 2025
Minki Kang, Jongwon Jeong, Seanie Lee, Jaewoong Cho, Sung Ju Hwang
805

大型語言模型(LLMs)在複雜推理任務上表現卓越,但其計算成本高昂,限制了實際部署。為解決這一問題,近期研究聚焦於利用教師LLMs的思維鏈(CoT)軌跡,將推理能力蒸餾至更小的語言模型(sLMs)中。然而,在需要罕見事實知識或精確計算的場景中,此方法常因sLMs能力有限而產生幻覺。本研究中,我們提出了代理蒸餾框架,旨在不僅轉移推理能力,還將基於LLM的代理的完整任務解決行為轉移至配備檢索與代碼工具的sLMs中。我們從兩個互補方向改進了代理蒸餾:(1)引入了一種名為“首思前綴”的提示方法,以提升教師生成軌跡的質量;(2)提出了自洽動作生成,以增強小型代理在測試時的魯棒性。我們在涵蓋事實與數學領域的八項推理任務上評估了該方法,包括域內與域外泛化。結果顯示,僅含0.5B、1.5B、3B參數的sLMs,其性能可與使用CoT蒸餾微調的下一級更大模型(1.5B、3B、7B)相媲美,展示了代理蒸餾在構建實用、工具使用型小型代理方面的潛力。我們的代碼已公開於https://github.com/Nardien/agent-distillation。

Quartet:原生FP4訓練對於大型語言模型而言可能是最佳選擇
Quartet: Native FP4 Training Can Be Optimal for Large Language Models

May 20, 2025
Roberto L. Castro, Andrei Panferov, Soroush Tabesh, Oliver Sieberling, Jiale Chen, Mahdi Nikdan, Saleh Ashkboos, Dan Alistarh
772

大型語言模型(LLMs)的快速發展伴隨著計算需求的空前增長,頂尖模型的訓練成本每幾個月便翻倍。直接在低精度算術中訓練模型提供了一種解決方案,既能提升計算吞吐量,又能提高能源效率。具體而言,NVIDIA 最新的 Blackwell 架構支持極低精度運算,特別是 FP4 變體,承諾帶來顯著的效率提升。然而,當前在 FP4 精度下訓練 LLMs 的算法面臨顯著的精度下降,且往往依賴於混合精度備用方案。本文中,我們系統性地研究了硬件支持的 FP4 訓練,並引入了 Quartet,這是一種新方法,能夠實現精確的端到端 FP4 訓練,所有主要計算(例如線性層)均在低精度下完成。通過對 Llama 型模型的廣泛評估,我們揭示了一種新的低精度縮放定律,該定律量化了不同位寬下的性能權衡,使我們能夠識別出一種在精度與計算之間達到“接近最優”的低精度訓練技術,稱為 Quartet。我們使用針對 NVIDIA Blackwell GPU 優化的 CUDA 內核實現了 Quartet,並展示其能在 FP4 精度下達到最先進的精度,成功訓練了十億級規模的模型。我們的方法證明,完全基於 FP4 的訓練是標準精度和 FP8 訓練的有力替代方案。我們的代碼可在 https://github.com/IST-DASLab/Quartet 獲取。

推理模型固執難改:診斷推理模型中的指令覆寫問題
Reasoning Model is Stubborn: Diagnosing Instruction Overriding in Reasoning Models

May 22, 2025
Doohyuk Jang, Yoonjeon Kim, Chanjae Park, Hyun Ryu, Eunho Yang
652

大型語言模型在處理冗長且複雜的推理任務上展現了卓越的能力。然而,它們往往過度依賴於熟悉的推理模式,這一現象我們稱之為推理僵化。即便用戶給出了明確的指令,這些模型仍經常無視已清楚說明的條件,轉而默認採用慣常的推理路徑,從而導致錯誤的結論。這種行為在數學和邏輯謎題等領域尤其構成重大挑戰,因為這些領域嚴格遵循指定的約束條件至關重要。為了系統性地研究這一在先前工作中鮮少探討的推理僵化現象,我們引入了一套由專家精心策劃的診斷集。該數據集包含了對現有數學基準(如AIME和MATH500)的特別修改版本,以及特意重新設計、要求偏離熟悉推理策略的知名謎題。利用此數據集,我們識別出模型在默認採用根深蒂固的推理方式時出現的污染模式。具體而言,我們將這種污染歸類為三種獨特模式:(i) 解釋過載,(ii) 輸入不信任,以及(iii) 部分指令關注,每一種模式都導致模型忽視或扭曲所提供的指令。我們公開釋出這套診斷集,以促進未來關於減輕語言模型推理僵化的研究。

一視同仁的強化學習:視覺三元統一強化學習
One RL to See Them All: Visual Triple Unified Reinforcement Learning

May 23, 2025
Yan Ma, Linge Du, Xuyang Shen, Shaoxiang Chen, Pengfei Li, Qibing Ren, Lizhuang Ma, Yuchao Dai, Pengfei Liu, Junjie Yan
602

強化學習(RL)顯著提升了視覺語言模型(VLMs)的推理能力。然而,RL在推理任務之外的應用仍大多未被探索,尤其是在物體檢測和定位等感知密集型任務上。我們提出了V-Triune,一個視覺三重統一強化學習系統,使VLMs能在單一訓練管道中同時學習視覺推理和感知任務。V-Triune包含三重互補組件:樣本級數據格式化(以統一多樣任務輸入)、驗證級獎勵計算(通過專門驗證器提供定制獎勵)和源級指標監控(在數據源層面診斷問題)。我們進一步引入了一種新穎的動態IoU獎勵,為V-Triune處理的感知任務提供自適應、漸進且明確的反饋。我們的方法在現成的RL訓練框架中實現,使用了開源的7B和32B骨幹模型。由此產生的模型,名為Orsta(一RL以觀全局),在推理和感知任務上均展現出一致的改進。這種廣泛的能力很大程度上得益於其在多樣化數據集上的訓練,該數據集圍繞四種代表性視覺推理任務(數學、謎題、圖表和科學)和四種視覺感知任務(定位、檢測、計數和OCR)構建。隨後,Orsta在MEGA-Bench Core上取得了顯著提升,其多種7B和32B模型變體的改進範圍從+2.1到令人印象深刻的+14.1,且性能優勢延伸至廣泛的下游任務。這些結果凸顯了我們統一RL方法對VLMs的有效性和可擴展性。V-Triune系統及Orsta模型已公開於https://github.com/MiniMax-AI。

PhyX:你的模型是否具備物理推理的「智慧」?
PhyX: Does Your Model Have the "Wits" for Physical Reasoning?

May 21, 2025
Hui Shen, Taiqiang Wu, Qi Han, Yunta Hsieh, Jizhou Wang, Yuyue Zhang, Yuxin Cheng, Zijian Hao, Yuansheng Ni, Xin Wang, Zhongwei Wan, Kai Zhang, Wendong Xu, Jing Xiong, Ping Luo, Wenhu Chen, Chaofan Tao, Zhuoqing Mao, Ngai Wong
494

現有的基準測試未能捕捉到智能的一個關鍵面向:物理推理,即整合領域知識、符號推理及對現實世界限制的理解的能力。為填補這一空白,我們推出了PhyX:首個大規模基準測試,旨在評估模型在視覺場景中基於物理的推理能力。PhyX包含3,000道精心策劃的多模態問題,涵蓋6種推理類型,跨越25個子領域及6個核心物理領域:熱力學、電磁學、力學、現代物理學、光學以及波與聲學。在我們的全面評估中,即便是最先進的模型在物理推理方面也表現出顯著的困難。GPT-4o、Claude3.7-Sonnet和GPT-o4-mini的準確率分別僅為32.5%、42.2%和45.8%,與人類專家相比,性能差距超過29%。我們的分析揭示了當前模型的關鍵限制:過度依賴記憶的學科知識、過分依賴數學公式,以及表面層次的視覺模式匹配,而非真正的物理理解。我們透過細緻的統計數據、詳細的案例研究及多種評估範式,提供了深入的分析,以全面檢視物理推理能力。為確保可重現性,我們基於廣泛使用的工具包(如VLMEvalKit)實現了兼容的評估協議,實現了一鍵式評估。

QwenLong-CPRS:邁向具備動態上下文優化的無限長語言模型
QwenLong-CPRS: Towards infty-LLMs with Dynamic Context Optimization

May 23, 2025
Weizhou Shen, Chenliang Li, Fanqi Wan, Shengyi Liao, Shaopeng Lai, Bo Zhang, Yingcheng Shi, Yuning Wu, Gang Fu, Zhansheng Li, Bin Yang, Ji Zhang, Fei Huang, Jingren Zhou, Ming Yan
443

本技術報告介紹了QwenLong-CPRS,這是一個專為顯式長上下文優化設計的上下文壓縮框架,旨在解決大型語言模型(LLMs)在長序列處理過程中預填充階段的高昂計算開銷以及「迷失在中間」的性能下降問題。通過一種新穎的動態上下文優化機制實現,QwenLong-CPRS能夠在自然語言指令的引導下進行多粒度上下文壓縮,從而實現效率提升和性能改進。 基於Qwen架構系列演進而來,QwenLong-CPRS引入了四大關鍵創新:(1)自然語言引導的動態優化,(2)增強邊界感知的雙向推理層,(3)帶有語言建模頭的令牌批判機制,以及(4)窗口並行推理。 在五個基準測試(4K-2M詞上下文)上的全面評估展示了QwenLong-CPRS的三重有效性:(1)在準確性和效率上均優於其他上下文管理方法,如RAG和稀疏注意力;(2)與所有旗艦LLMs(包括GPT-4o、Gemini2.0-pro、Claude3.7-sonnet、DeepSeek-v3和Qwen2.5-max)的架構無縫集成,實現了21.59倍的上下文壓縮,並伴隨19.15點的平均性能提升;(3)與Qwen2.5-32B-Instruct部署時,QwenLong-CPRS在Ruler-128K和InfiniteBench上分別超越領先的專有LLMs達4.85和10.88點,創立了新的SOTA性能。

透過測試時進化搜索實現圖像與視頻生成的規模化
Scaling Image and Video Generation via Test-Time Evolutionary Search

May 23, 2025
Haoran He, Jiajun Liang, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Ling Pan
422

隨著模型預訓練階段擴展計算(數據和參數)的邊際成本持續大幅增加,測試時擴展(TTS)已成為一種有前景的方向,通過在推理時分配額外計算來提升生成模型的性能。儘管TTS在多項語言任務中展現了顯著成功,但對於圖像和視頻生成模型(基於擴散或流模型)的測試時擴展行為仍存在顯著的認知空白。雖然近期研究已開始探索視覺任務的推理時策略,這些方法面臨關鍵限制:受限於特定任務領域、可擴展性差,或陷入獎勵過度優化而犧牲樣本多樣性。本文提出了一種新穎、通用且高效的TTS方法——進化搜索(EvoSearch),它有效增強了基於擴散和流模型的圖像與視頻生成的擴展性,無需額外訓練或模型擴展。EvoSearch將擴散和流模型的測試時擴展重新定義為一個進化搜索問題,利用生物進化原理高效探索並優化去噪軌跡。通過針對隨機微分方程去噪過程精心設計的選擇與變異機制,EvoSearch在保持種群多樣性的同時,迭代生成更高質量的後代。在圖像和視頻生成任務中,對多種擴散和流架構進行廣泛評估後,我們證明該方法始終優於現有方法,實現了更高的多樣性,並在未見過的評估指標上展現出強大的泛化能力。項目詳情請訪問網站https://tinnerhrhe.github.io/evosearch。

MOOSE-Chem3:透過模擬實驗反饋實現實驗引導的假設排序
MOOSE-Chem3: Toward Experiment-Guided Hypothesis Ranking via Simulated Experimental Feedback

May 23, 2025
Wanhao Liu, Zonglin Yang, Jue Wang, Lidong Bing, Di Zhang, Dongzhan Zhou, Yuqiang Li, Houqiang Li, Erik Cambria, Wanli Ouyang
313

假設排序是自動化科學發現中的關鍵組成部分,特別是在自然科學領域,因為濕實驗成本高昂且通量有限。現有方法主要關注實驗前排序,僅依賴大型語言模型的內部推理,而未納入實驗的實證結果。我們引入了實驗引導排序任務,旨在根據先前測試過的假設結果來優先考慮候選假設。然而,由於在自然科學領域中反覆進行真實實驗的不切實際性,開發此類策略具有挑戰性。為解決這一問題,我們提出了一個基於三個領域知識假設的模擬器,將假設表現建模為與已知真實假設相似度的函數,並受到噪聲的干擾。我們整理了一個包含124個化學假設及其實驗報告結果的數據集,以驗證該模擬器。在此模擬器基礎上,我們開發了一種偽實驗引導排序方法,該方法通過共享功能特徵對假設進行聚類,並根據模擬實驗反饋得出的見解來優先考慮候選假設。實驗表明,我們的方法優於實驗前基線和強力的消融實驗。

模型已知最佳噪聲:基於注意力機制的貝葉斯主動噪聲選擇於視頻擴散模型
Model Already Knows the Best Noise: Bayesian Active Noise Selection via Attention in Video Diffusion Model

May 23, 2025
Kwanyoung Kim, Sanghyun Kim
313

初始噪声的选择显著影响视频扩散模型的质量与提示对齐效果,同一提示下不同的噪声种子可能导致截然不同的生成结果。尽管现有方法依赖于外部设计的先验,如频率滤波器或帧间平滑技术,它们往往忽视了模型内部信号,这些信号能够指示哪些噪声种子本质上更为优越。为此,我们提出了ANSE(主动噪声选择生成框架),这是一个模型感知的框架,通过量化基于注意力的不确定性来筛选高质量噪声种子。其核心是BANSA(基于贝叶斯的主动噪声选择通过注意力),一种获取函数,通过测量多个随机注意力样本间的熵分歧来估计模型的置信度与一致性。为了在推理时高效部署,我们引入了BANSA的伯努利掩码近似方法,使得仅需一次扩散步骤和部分注意力层即可完成评分估计。在CogVideoX-2B和5B上的实验表明,ANSE分别仅增加了8%和13%的推理时间,就显著提升了视频质量与时间连贯性,为视频扩散中的噪声选择提供了一种原则性强且可推广的方法。详情请访问我们的项目页面:https://anse-project.github.io/anse-project/。

VeriThinker:學習驗證使推理模型更高效
VeriThinker: Learning to Verify Makes Reasoning Model Efficient

May 23, 2025
Zigeng Chen, Xinyin Ma, Gongfan Fang, Ruonan Yu, Xinchao Wang
252

大型推理模型(LRMs)在利用思维链(CoT)进行复杂任务时表现出色。然而,其过度思考的倾向导致不必要的冗长推理链,显著增加了推理成本。为解决这一问题,我们引入了VeriThinker,一种新颖的CoT压缩方法。与直接在原始推理任务上使用合成简洁CoT数据微调LRMs的传统方法不同,我们创新性地仅通过辅助验证任务对模型进行微调。通过训练LRMs准确验证CoT解决方案的正确性,LRMs本质上对后续自我反思步骤的必要性变得更加敏锐,从而有效抑制了过度思考。大量实验验证了VeriThinker在保持甚至略微提高准确性的同时,显著减少了推理链长度。当应用于DeepSeek-R1-Distill-Qwen-7B时,我们的方法在MATH500上将推理标记从3790减少到2125,同时准确率提高了0.8%(从94.0%到94.8%);在AIME25上,标记从14321减少到10287,准确率提升了2.1%(从38.7%到40.8%)。此外,我们的实验表明,VeriThinker也可以零样本泛化到推测推理。代码可在https://github.com/czg1225/VeriThinker获取。

擴散分類器理解組合性,但需滿足特定條件
Diffusion Classifiers Understand Compositionality, but Conditions Apply

May 23, 2025
Yujin Jeong, Arnas Uselis, Seong Joon Oh, Anna Rohrbach
213

理解视觉场景是人类智能的基础。尽管判别模型在计算机视觉领域取得了显著进展,但它们往往在组合理解方面表现欠佳。相比之下,近期生成式文本到图像扩散模型在合成复杂场景方面表现出色,暗示了其内在的组合能力。基于此,零样本扩散分类器被提出,旨在将扩散模型重新应用于判别任务。虽然先前的工作在判别组合场景中展示了有前景的结果,但由于基准测试数量有限且对模型成功条件的分析相对浅显,这些结果仍属初步。为解决这一问题,我们开展了一项全面研究,探讨扩散分类器在广泛组合任务中的判别能力。具体而言,我们的研究涵盖了三个扩散模型(SD 1.5、2.0,以及首次引入的3-m),跨越10个数据集和超过30项任务。此外,我们揭示了目标数据集领域对各自性能的影响;为隔离领域效应,我们引入了一个新的诊断基准Self-Bench,该基准由扩散模型自身生成的图像构成。最后,我们探讨了时间步权重的重要性,并揭示了领域差距与时间步敏感性之间的关系,特别是对于SD3-m模型。总之,扩散分类器能够理解组合性,但需满足特定条件!代码和数据集可在https://github.com/eugene6923/Diffusion-Classifiers-Compositionality获取。

Direct3D-S2:透過空間稀疏注意力實現簡易的千兆級3D生成
Direct3D-S2: Gigascale 3D Generation Made Easy with Spatial Sparse Attention

May 23, 2025
Shuang Wu, Youtian Lin, Feihu Zhang, Yifei Zeng, Yikang Yang, Yajie Bao, Jiachen Qian, Siyu Zhu, Philip Torr, Xun Cao, Yao Yao
202

利用如符號距離函數(Signed Distance Functions)等體積表示法生成高分辨率3D形狀,面臨著巨大的計算與記憶體挑戰。我們提出了Direct3D S2,這是一個基於稀疏體積的可擴展3D生成框架,它不僅實現了卓越的輸出質量,還大幅降低了訓練成本。我們的核心創新是空間稀疏注意力機制(Spatial Sparse Attention, SSA),它極大地提升了擴散變壓器在稀疏體積數據上的計算效率。SSA使得模型能夠高效處理稀疏體積中的大量令牌集,顯著減少了計算開銷,並在前向傳播中實現了3.9倍的加速,在反向傳播中實現了9.6倍的加速。我們的框架還包含一個變分自編碼器,它在輸入、潛在及輸出階段均保持一致的稀疏體積格式。與以往在3D VAE中採用異質表示的方法相比,這一統一設計顯著提升了訓練效率與穩定性。我們的模型在公開數據集上進行了訓練,實驗結果表明,Direct3D S2不僅在生成質量與效率上超越了現有最先進的方法,還能在僅使用8個GPU的情況下進行1024分辨率的訓練,而通常對於256分辨率的體積表示,這至少需要32個GPU,從而使得千兆級3D生成既實用又易於實現。項目頁面:https://nju3dv.github.io/projects/Direct3D-S2/。

AudioTrust:音頻大型語言模型多面向可信度的基準測試
AudioTrust: Benchmarking the Multifaceted Trustworthiness of Audio Large Language Models

May 22, 2025
Kai Li, Can Shen, Yile Liu, Jirui Han, Kelong Zheng, Xuechao Zou, Zhe Wang, Xingjian Du, Shun Zhang, Hanjun Luo, Yingbin Jin, Xinxin Xing, Ziyang Ma, Yue Liu, Xiaojun Jia, Yifan Zhang, Junfeng Fang, Kun Wang, Yibo Yan, Haoyang Li, Yiming Li, Xiaobin Zhuang, Yang Liu, Haibo Hu, Zhuo Chen, Zhizheng Wu, Xiaolin Hu, Eng-Siong Chng, XiaoFeng Wang, Wenyuan Xu, Wei Dong, Xinfeng Li
182

音頻大型語言模型(ALLMs)的快速發展和廣泛應用,迫切要求我們對其可信度進行嚴謹的評估。然而,針對這些模型的系統性研究,尤其是涉及音頻模態特有風險的評估,目前仍處於探索階段。現有的評估框架主要集中於文本模態,或僅涵蓋有限的安全維度,未能充分考慮音頻模態的獨特特性和應用場景。我們提出了AudioTrust——首個專為ALLMs設計的多維度可信度評估框架與基準。AudioTrust支持在六個關鍵維度上進行評估:公平性、幻覺、安全性、隱私性、魯棒性和認證性。為全面評估這些維度,AudioTrust圍繞18個不同的實驗設置構建,其核心是一個精心構建的包含超過4,420個音頻/文本樣本的數據集,這些樣本取自現實場景(如日常對話、緊急呼叫、語音助手交互),專門用於探測ALLMs的多維度可信度。為進行評估,該基準精心設計了9個音頻專屬的評估指標,並採用大規模自動化流程對模型輸出進行客觀且可擴展的評分。實驗結果揭示了當前最先進的開源和閉源ALLM在面對各種高風險音頻場景時的可信度邊界與局限,為未來音頻模型的安全可信部署提供了寶貴的洞見。我們的平台與基準可在https://github.com/JusperLee/AudioTrust獲取。

不確定性位置:大型語言模型中位置偏差的跨語言研究
Position of Uncertainty: A Cross-Linguistic Study of Positional Bias in Large Language Models

May 22, 2025
Menschikov Mikhail, Alexander Kharitonov, Maiia Kotyga, Vadim Porvatov, Anna Zhukovskaya, David Kagramanyan, Egor Shvetsov, Evgeny Burnaev
182

大型語言模型展現出位置偏見——即系統性地忽略特定上下文位置的信息——然而其與語言多樣性之間的相互作用仍鮮為人知。我們進行了一項跨語言研究,涵蓋五種類型學上截然不同的語言(英語、俄語、德語、印地語、越南語),探討位置偏見如何與模型不確定性、句法及提示方式相互作用。主要發現如下:(1) 位置偏見由模型驅動,並呈現語言特異性變化——Qwen2.5-7B偏好後期位置,挑戰了早期詞彙偏見的假設;(2) 明確的位置指導(例如,正確上下文位於位置X)降低了跨語言的準確性,削弱了提示工程實踐;(3) 將上下文與位置偏見對齊會增加熵值,但最小熵值並不能預測準確性。(4) 我們進一步發現,在印地語等自由詞序語言中,LLMs以不同方式強加主導詞序。

s3:訓練搜索代理無需大量數據,強化學習足矣
s3: You Don't Need That Much Data to Train a Search Agent via RL

May 20, 2025
Pengcheng Jiang, Xueqiang Xu, Jiacheng Lin, Jinfeng Xiao, Zifeng Wang, Jimeng Sun, Jiawei Han
182

檢索增強生成(RAG)系統賦予大型語言模型(LLMs)在推理過程中訪問外部知識的能力。近期進展使得LLMs能夠通過強化學習(RL)充當搜索代理,通過與檢索引擎的多輪互動來提升信息獲取效率。然而,現有方法要麼僅使用搜索專用指標(如NDCG)優化檢索,而忽略了下游任務的效用;要麼對整個LLM進行微調,使其同時進行推理與檢索——這將檢索與生成過程緊密耦合,限制了實際搜索效用及與凍結或專有模型的兼容性。本研究中,我們提出了s3,一個輕量級、模型無關的框架,它將搜索器與生成器解耦,並利用“超越RAG的增益”作為獎勵來訓練搜索器:即相較於基礎RAG在生成準確性上的提升。s3僅需2.4k訓練樣本即可超越基於超過70倍數據訓練的基線模型,在六個通用問答和五個醫療問答基準測試中持續展現更強的下游性能。

以謊言教學:基於合成負例的課程式DPO用於幻覺檢測
Teaching with Lies: Curriculum DPO on Synthetic Negatives for Hallucination Detection

May 23, 2025
Shrey Pandit, Ashwin Vinod, Liu Leqi, Ying Ding
152

對齊大型語言模型(LLMs)以準確檢測幻覺文本仍然是一個重大挑戰,這歸因於幻覺文本的複雜性。考慮到幻覺樣本通常比傳統的負樣本具有更高的欺騙性質量,我們在DPO對齊過程中將這些精心設計的幻覺作為負樣本使用。我們的方法採用了課程學習策略,逐步將訓練從基於獨立事實核查模型概率分數最大降低的較易樣本過渡到逐漸更難的樣本。這種結構化的難度分級確保了穩定且漸進的學習。實驗評估表明,採用課程DPO方法和高質量負樣本訓練的HaluCheck模型在各種指標上顯著提升了模型性能,在MedHallu和HaluEval等困難基準測試中實現了高達24%的改進。此外,HaluCheck模型在零樣本設置中展現了魯棒性,在多個基準測試中顯著優於更大的最先進模型。

無聲勝有聲:針對低資源語言的無語音語音指令訓練
Speechless: Speech Instruction Training Without Speech for Low Resource Languages

May 23, 2025
Alan Dao, Dinh Bach Vu, Huy Hoang Ha, Tuan Le Duc Anh, Shreyas Gopal, Yue Heng Yeo, Warren Keng Hoong Low, Eng Siong Chng, Jia Qi Yip
142

由大型語言模型(LLM)驅動的語音助手快速發展,凸顯了訓練這些系統所需的語音指令數據的需求。儘管語音識別數據豐富,但用於微調模型以理解和執行口頭指令的語音指令數據卻顯著匱乏。生成高質量的合成語音需要良好的文本轉語音(TTS)模型,而這對於低資源語言可能並不可用。我們的新方法通過在語義表示層面停止合成,繞過了對TTS的需求,從而應對這一挑戰。我們通過將合成語義表示與預訓練的Whisper編碼器對齊,使LLM能夠在微調文本指令的同時,在推理過程中保持理解口頭指令的能力。這種簡化的訓練過程為構建低資源語言的語音助手提供了一種有前景的途徑。

全前端工程流程中的多模态大语言模型基准测试
FullFront: Benchmarking MLLMs Across the Full Front-End Engineering Workflow

May 23, 2025
Haoyu Sun, Huichen Will Wang, Jiawei Gu, Linjie Li, Yu Cheng
142

前端工程涉及一套复杂的工作流程,工程师们在此过程中构思设计、将其转化为代码,并迭代优化实现。尽管近期的基准测试主要聚焦于将视觉设计转换为代码,我们提出了FullFront,这是一个旨在评估多模态大语言模型(MLLMs)在整个前端开发流程中表现的基准。FullFront评估了直接映射到前端工程流程的三个基本任务:网页设计(构思阶段)、网页感知问答(理解视觉组织与元素)以及网页代码生成(实现阶段)。与现有基准测试不同,后者要么使用代码冗余的抓取网站,要么采用过于简化的LLM生成的HTML,FullFront采用了一种新颖的两阶段过程,将现实世界的网页转化为干净、标准化的HTML,同时保持多样化的视觉设计并避免版权问题。对顶尖MLLMs的广泛测试揭示了在页面感知、代码生成(尤其是图像处理和布局方面)以及交互实现上的显著局限。我们的结果定量展示了不同模型和任务间的性能差异,并凸显了当前MLLM能力与人类专家在前端工程领域表现之间的巨大差距。FullFront基准测试及代码可在https://github.com/Mikivishy/FullFront获取。

思維增強策略優化:橋接外部指導與內部能力
Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities

May 21, 2025
Jinyang Wu, Chonghua Liao, Mingkuan Feng, Shuai Zhang, Zhengqi Wen, Pengpeng Shao, Huazhe Xu, Jianhua Tao
142

強化學習(Reinforcement Learning, RL)已成為訓練推理模型的有效方法。然而,現有的RL方法通常會將模型的輸出分佈偏向於獎勵最大化的路徑,而沒有引入外部知識。這限制了其探索能力,並導致其推理能力邊界相比基礎模型更為狹窄。為解決這一限制,我們提出了TAPO(Thought-Augmented Policy Optimization,思維增強策略優化),這是一個新穎的框架,通過整合外部的高層次指導(“思維模式”)來增強RL。通過在訓練過程中自適應地整合結構化思維,TAPO有效地平衡了模型內部的探索與外部指導的利用。大量實驗表明,我們的方法在AIME上比GRPO提升了99%,在AMC上提升了41%,在Minerva Math上提升了17%。值得注意的是,這些高層次思維模式僅從500個先驗樣本中抽象出來,卻能有效地泛化到各種任務和模型中。這凸顯了TAPO在多任務和多領域中的廣泛應用潛力。我們進一步的分析表明,引入外部指導能夠產生具有卓越推理行為可解釋性和增強輸出可讀性的強大推理模型。

Time-R1:邁向大型語言模型中的全面時間推理
Time-R1: Towards Comprehensive Temporal Reasoning in LLMs

May 16, 2025
Zijia Liu, Peixuan Han, Haofei Yu, Haoru Li, Jiaxuan You
143

大型語言模型(LLMs)展現了令人印象深刻的性能,但在時間智能方面仍顯不足,難以將對過去的推理與未來的預測及合理生成相結合。現有方法通常針對孤立的時間技能,如關於過去事件的問答或基本預測,且表現出較差的泛化能力,尤其是在處理超出其知識截止日期的事件或需要創造性遠見時。為解決這些限制,我們引入了Time-R1,這是首個賦予中等規模(30億參數)LLM全面時間能力的框架:理解、預測和創造性生成。我們的方法採用了一種新穎的三階段發展路徑;前兩個階段構成了一個由精心設計的基於規則的動態獎勵系統驅動的強化學習(RL)課程。該框架逐步建立(1)從歷史數據中獲得的基礎時間理解和邏輯事件-時間映射,(2)對超出其知識截止日期的未來事件預測能力,最終(3)實現了對創造性未來場景生成的顯著泛化,而無需任何微調。引人注目的是,實驗表明Time-R1在極具挑戰性的未來事件預測和創造性場景生成基準測試中,表現優於規模超過其200倍的模型,包括最先進的6710億參數的DeepSeek-R1。這項工作提供了強有力的證據,表明經過深思熟慮設計的漸進式RL微調可以使更小、更高效的模型實現卓越的時間性能,為真正具有時間意識的AI提供了一條實用且可擴展的路徑。為促進進一步研究,我們還發布了Time-Bench,這是一個基於10年新聞數據的大規模多任務時間推理數據集,以及我們的Time-R1檢查點系列。

RBench-V:多模態輸出視覺推理模型的首選評估基準
RBench-V: A Primary Assessment for Visual Reasoning Models with Multi-modal Outputs

May 22, 2025
Meng-Hao Guo, Xuanyu Chu, Qianrui Yang, Zhe-Han Mo, Yiqing Shen, Pei-lin Li, Xinjie Lin, Jinnian Zhang, Xin-Sheng Chen, Yi Zhang, Kiyohiro Nakayama, Zhengyang Geng, Houwen Peng, Han Hu, Shi-Nin Hu
113

原生多模態模型和全能模型的快速發展,以GPT-4o、Gemini和o3為代表,這些模型具備處理和生成跨模態內容(如文本和圖像)的能力,標誌著智能演進的一個重要里程碑。系統性地評估這些模型在視覺思維過程(亦稱多模態思維鏈,M-CoT)中的多模態輸出能力變得至關重要。然而,現有的多模態模型評估基準主要集中於評估多模態輸入和純文本推理,而忽視了通過多模態輸出進行推理的重要性。本文提出了一個名為RBench-V的基準,旨在評估模型的視覺不可或缺推理能力。為了構建RBench-V,我們精心挑選了803個問題,涵蓋數學、物理、計數和遊戲等領域。與以往基準通常指定某些輸入模態不同,RBench-V提出的問題以多模態輸出為核心,需要進行圖像操作,如生成新圖像和構建輔助線以支持推理過程。我們在RBench-V上評估了多個開源和閉源模型,包括o3、Gemini 2.5 Pro、Qwen2.5-VL等。即使表現最佳的模型o3,在RBench-V上的準確率也僅為25.8%,遠低於人類的82.3%,這表明當前模型在多模態推理方面仍面臨挑戰。數據和代碼可在https://evalmodels.github.io/rbenchv獲取。

晴朗之夜:邁向多天氣條件下的夜間圖像復原
Clear Nights Ahead: Towards Multi-Weather Nighttime Image Restoration

May 22, 2025
Yuetong Liu, Yunqiu Xu, Yang Wei, Xiuli Bi, Bin Xiao
112

恢復受多種惡劣天氣條件影響的夜間圖像是一個實用但尚未充分探索的研究問題,因為在現實世界中,多種天氣條件往往與夜間的各種光照效果共存。本文首次探討了具有挑戰性的多天氣夜間圖像恢復任務,其中多種類型的天氣退化與光暈效應交織在一起。為了支持這項研究,我們貢獻了AllWeatherNight數據集,該數據集包含大規模高質量的夜間圖像,具有多種組合退化,這些圖像是使用我們引入的照明感知退化生成方法合成的。此外,我們提出了ClearNight,一個統一的夜間圖像恢復框架,能夠有效地一次性去除複雜的退化。具體來說,ClearNight提取基於Retinex的雙重先驗,並明確引導網絡分別關注不均勻照明區域和內在紋理內容,從而提高夜間場景中的恢復效果。為了更好地表示多種天氣退化的共同和獨特特徵,我們引入了一種天氣感知的動態特定-共性協作方法,該方法識別天氣退化並自適應地選擇與特定天氣類型相關的最佳候選單元。我們的ClearNight在合成圖像和真實世界圖像上均達到了最先進的性能。全面的消融實驗驗證了AllWeatherNight數據集的必要性以及ClearNight的有效性。項目頁面:https://henlyta.github.io/ClearNight/mainpage.html

透過合成任務與強化學習教導大型語言模型保持上下文忠實性
Teaching Large Language Models to Maintain Contextual Faithfulness via Synthetic Tasks and Reinforcement Learning

May 22, 2025
Shuzheng Si, Haozhe Zhao, Cheng Gao, Yuzhuo Bai, Zhitong Wang, Bofei Gao, Kangyang Luo, Wenhao Li, Yufei Huang, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun
105

教導大型語言模型(LLMs)在提供的上下文中保持忠實性,對於構建可靠的信息檢索系統至關重要。因此,我們提出了一個系統化的框架——CANOE,旨在無需人工註釋的情況下,提升LLMs在短篇和長篇生成任務中的忠實性。具體而言,我們首先通過四種多樣化的任務合成短篇問答(QA)數據,以構建高質量且易於驗證的訓練數據,而無需人工註解。此外,我們提出了Dual-GRPO,這是一種基於規則的強化學習方法,它包含三種從合成的短篇QA數據中提取的定制化規則獎勵,同時優化短篇和長篇回應的生成。值得注意的是,Dual-GRPO消除了手動標記偏好數據以訓練獎勵模型的需求,並避免了僅依賴於合成的短篇QA數據時對短篇生成的過度優化。實驗結果顯示,CANOE在11種不同的下游任務中極大地提升了LLMs的忠實性,甚至超越了最先進的LLMs,例如GPT-4o和OpenAI o1。

合成數據強化學習:任務定義即為關鍵
Synthetic Data RL: Task Definition Is All You Need

May 18, 2025
Yiduo Guo, Zhen Guo, Chuanwei Huang, Zi-Ang Wang, Zekai Zhang, Haofei Yu, Huishuai Zhang, Yikang Shen
102

強化學習(RL)是一種將基礎模型適應於特定任務的強大方法,但其對大規模人工標註數據的依賴限制了廣泛應用。我們提出了合成數據強化學習(Synthetic Data RL),這是一個簡單且通用的框架,僅使用從任務定義生成的合成數據來進行模型的強化微調。我們的方法首先從任務定義和檢索到的文檔生成問答對,然後根據模型的可解性調整問題的難度,並使用模型在樣本上的平均通過率來選擇問題進行RL訓練。在Qwen-2.5-7B上,我們的方法在GSM8K上相較於基礎模型實現了29.2%的絕對提升(+2.9 pp vs. 指令微調,+6.6 pp vs. Self-Instruct),在MATH上提升了8.7%,在GPQA上提升了13.1%(+7.0 pp vs. SynthLLM),在MedQA上提升了8.9%,在CQA(法律)上提升了17.7%,在CFA(金融)上提升了13.7%。它在相同數據預算下超越了監督微調,並在多個數據集上幾乎匹配了使用完整人工數據的RL(例如,在GSM8K上+17.2 pp)。添加100個人類示範僅使GSM8K的性能提升了0.4 pp,顯示出有限的附加價值。通過減少人工數據標註,合成數據強化學習實現了可擴展且高效的基於RL的模型適應。代碼和演示可在https://github.com/gydpku/Data_Synthesis_RL/獲取。

Trinity-RFT:一個通用且統一的強化微調框架,適用於大型語言模型
Trinity-RFT: A General-Purpose and Unified Framework for Reinforcement Fine-Tuning of Large Language Models

May 23, 2025
Xuchen Pan, Yanxi Chen, Yushuo Chen, Yuchang Sun, Daoyuan Chen, Wenhao Zhang, Yuexiang Xie, Yilun Huang, Yilei Zhang, Dawei Gao, Yaliang Li, Bolin Ding, Jingren Zhou
92

Trinity-RFT 是一個通用、靈活且可擴展的框架,專為大型語言模型的強化微調(RFT)而設計。它採用解耦式架構,包含:(1) 一個 RFT 核心,統一並泛化了同步/異步、在線/離線以及同策略/異策略的 RFT 模式;(2) 高效且穩健的智能體-環境交互無縫集成;(3) 針對 RFT 優化的系統化數據管道。Trinity-RFT 能輕鬆適應多樣化的應用場景,並作為探索先進強化學習範式的統一平台。本技術報告概述了 Trinity-RFT 的願景、特性、設計與實現,並附有大量示例,展示了該框架的實用性與用戶友好性。

ScanBot:邁向具身機器人系統中的智能表面掃描
ScanBot: Towards Intelligent Surface Scanning in Embodied Robotic Systems

May 22, 2025
Zhiling Chen, Yang Zhang, Fardin Jalil Piran, Qianyu Zhou, Jiong Tang, Farhad Imani
92

我們介紹了ScanBot,這是一個專為機器人系統中指令條件化、高精度表面掃描而設計的新穎數據集。與現有的機器人學習數據集相比,後者主要關注如抓取、導航或對話等粗粒度任務,ScanBot則針對工業激光掃描的高精度需求,其中亞毫米級路徑連續性和參數穩定性至關重要。該數據集涵蓋了機器人對12種不同物體執行的激光掃描軌跡,涉及6種任務類型,包括全表面掃描、幾何重點區域、空間參考部件、功能相關結構、缺陷檢測以及比較分析。每次掃描均由自然語言指令引導,並配合同步的RGB、深度和激光輪廓數據,以及機器人位姿和關節狀態。儘管近期有所進展,現有的視覺語言動作(VLA)模型在細粒度指令和現實世界精度要求下仍無法生成穩定的掃描軌跡。為探究這一限制,我們對一系列多模態大語言模型(MLLMs)在整個感知-規劃-執行迴路中進行了基準測試,揭示了在現實約束下指令跟隨方面存在的持續挑戰。

視覺語言模型在現實世界中安全嗎?基於迷因的基準測試研究
Are Vision-Language Models Safe in the Wild? A Meme-Based Benchmark Study

May 21, 2025
DongGeon Lee, Joonwon Jang, Jihae Jeong, Hwanjo Yu
82

視覺語言模型(VLMs)的快速部署放大了安全風險,然而大多數評估仍依賴於人工生成的圖像。本研究提出一個關鍵問題:當面對普通用戶分享的迷因圖像時,現有的VLMs安全性如何?為探討此問題,我們引入了MemeSafetyBench,這是一個包含50,430個實例的基準測試,將真實的迷因圖像與有害及無害的指令配對。通過全面的安全分類法和基於大型語言模型(LLM)的指令生成,我們評估了多個VLMs在單輪和多輪互動中的表現。我們研究了現實世界中的迷因如何影響有害輸出、對話語境的緩解效果,以及模型規模與安全指標之間的關係。研究結果表明,與合成或排版圖像相比,VLMs對基於迷因的有害提示表現出更大的脆弱性。相較於純文本輸入,迷因顯著增加了有害回應並降低了拒絕率。儘管多輪互動提供了一定程度的緩解,但高脆弱性依然存在。這些結果強調了生態效度評估和更強安全機制的必要性。

RePrompt:基於強化學習的推理增強型重新提示技術在文本到圖像生成中的應用
RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning

May 23, 2025
Mingrui Wu, Lu Wang, Pu Zhao, Fangkai Yang, Jianjin Zhang, Jianfeng Liu, Yuefeng Zhan, Weihao Han, Hao Sun, Jiayi Ji, Xiaoshuai Sun, Qingwei Lin, Weiwei Deng, Dongmei Zhang, Feng Sun, Qi Zhang, Rongrong Ji
72

儘管文本到圖像(T2I)生成技術近期取得了進展,現有模型在從簡短且未充分指定的提示中準確捕捉用戶意圖方面仍面臨挑戰。雖然先前的研究嘗試利用大型語言模型(LLMs)來增強提示,但這些方法由於缺乏對視覺語義和現實世界構圖的充分基礎,常常生成風格化或不切實際的內容。受到語言模型推理最新進展的啟發,我們提出了RePrompt,這是一種新穎的重提示框架,通過強化學習將顯式推理引入提示增強過程。與依賴手工規則或風格化重寫不同,我們的方法訓練語言模型生成結構化、自我反思的提示,通過優化圖像級結果來實現。定制的獎勵模型從人類偏好、語義對齊和視覺構圖等方面評估生成的圖像,為提示生成提供間接監督。我們的方法實現了無需人工註釋數據的端到端訓練。在GenEval和T2I-Compbench上的實驗表明,RePrompt顯著提升了多種T2I骨幹模型的空間佈局保真度和組合泛化能力,建立了新的最先進成果。

共舞時刻!身份保持型多人互動視頻生成
DanceTogether! Identity-Preserving Multi-Person Interactive Video Generation

May 23, 2025
Junhao Chen, Mingjin Chen, Jianjin Xu, Xiang Li, Junting Dong, Mingze Sun, Puhua Jiang, Hongxiang Li, Yuhang Yang, Hao Zhao, Xiaoxiao Long, Ruqi Huang
62

可控視頻生成(CVG)技術雖已迅速發展,但現有系統在面對多個角色需移動、互動及交換位置,且控制信號存在噪聲時,往往表現不佳。為填補這一空白,我們提出了DanceTogether,這是首個端到端的擴散框架,能夠將單一參考圖像與獨立的姿態掩碼流轉化為長時、逼真的視頻,同時嚴格保持每個角色的身份特徵。創新的MaskPoseAdapter在每一步去噪過程中,通過將穩定的跟踪掩碼與語義豐富但帶噪的姿態熱圖融合,綁定“誰”與“如何”,從而消除了困擾逐幀處理流程的身份漂移和外觀滲透問題。為了大規模訓練與評估,我們引入了(i) PairFS-4K,包含26小時的雙人滑冰視頻,涵蓋7000多個不同身份;(ii) HumanRob-300,一個一小時的人形機器人互動數據集,用於快速跨領域遷移;以及(iii) TogetherVideoBench,一個圍繞DanceTogEval-100測試集的三軌基準,涵蓋舞蹈、拳擊、摔跤、瑜伽和花樣滑冰。在TogetherVideoBench上,DanceTogether顯著超越了先前技術。此外,我們展示了一小時的微調即可生成令人信服的人機視頻,凸顯了其在具身AI和人機交互任務中的廣泛泛化能力。大量消融實驗證實,持續的身份-動作綁定是這些提升的關鍵。總之,我們的模型、數據集和基準將CVG從單一主體編舞提升至可組合控制的多角色互動,為數字製作、模擬及具身智能開闢了新途徑。我們的視頻演示和代碼可在https://DanceTog.github.io/獲取。

視覺-語言-動作模型的互動式後訓練
Interactive Post-Training for Vision-Language-Action Models

May 22, 2025
Shuhan Tan, Kairan Dou, Yue Zhao, Philipp Krähenbühl
62

我們提出了RIPT-VLA,這是一種簡單且可擴展的基於強化學習的互動式後訓練範式,它僅使用稀疏的二值化成功獎勵來微調預訓練的視覺-語言-動作(VLA)模型。現有的VLA訓練流程嚴重依賴於離線專家示範數據和監督式模仿,這限制了它們在低數據條件下適應新任務和環境的能力。RIPT-VLA通過基於動態滾動採樣和留一法優勢估計的穩定策略優化算法,實現了互動式後訓練,從而解決了這一問題。 RIPT-VLA具有以下特點。首先,它適用於各種VLA模型,使得輕量級QueST模型的性能提升了21.2%,並將7B OpenVLA-OFT模型的成功率提升至前所未有的97.5%。其次,它在計算和數據上都非常高效:僅需一次示範,RIPT-VLA就能讓原本無法工作的SFT模型(4%)在15次迭代內達到97%的成功率。此外,我們展示了RIPT-VLA學習到的策略能夠泛化到不同的任務和場景,並且對初始狀態上下文具有魯棒性。這些結果凸顯了RIPT-VLA作為一種通過最小監督進行VLA模型後訓練的實用且有效的範式。

Transformer Copilot:基於LLM微調中的錯誤日誌進行學習
Transformer Copilot: Learning from The Mistake Log in LLM Fine-tuning

May 22, 2025
Jiaru Zou, Yikun Ban, Zihao Li, Yunzhe Qi, Ruizhong Qiu, Ling Yang, Jingrui He
62

大型語言模型通常通過對特定領域數據進行監督式微調來適應下游任務。雖然標準的微調主要聚焦於最小化生成損失以優化模型參數,但我們更進一步,保留並利用模型自身的學習信號,這類似於人類學習者通過反思過去的錯誤來提升未來表現。我們首先引入了「錯誤日誌」的概念,以系統地追蹤模型在微調過程中的學習行為和重複出現的錯誤。將原始的基於Transformer的模型視為「主駕駛」,我們相應地設計了一個「副駕駛」模型,通過對數概率的校正來提升主駕駛的推理性能。我們將這一整體的主副駕駛框架命名為「Transformer副駕駛」,它引入了:(i) 一種新穎的副駕駛模型設計,(ii) 一種聯合訓練範式,其中副駕駛持續從不斷演化的錯誤日誌中學習,與主駕駛並行,(iii) 一種融合推理範式,其中副駕駛校正主駕駛的對數概率以增強生成效果。我們對這一新的學習框架進行了理論和實證分析。在涵蓋常識、算術和推薦任務的12個基準測試中,實驗表明Transformer副駕駛持續提升了性能,最高可達34.5%,同時僅為主駕駛模型引入了微小的計算開銷,並展現出強大的可擴展性和可遷移性。

ReflAct:基於目標狀態反思的LLM代理世界錨定決策
ReflAct: World-Grounded Decision Making in LLM Agents via Goal-State Reflection

May 21, 2025
Jeonghye Kim, Sojeong Rhee, Minbeom Kim, Dohyung Kim, Sangmook Lee, Youngchul Sung, Kyomin Jung
62

近期,大型语言模型(LLM)代理的进展主要建立在如ReAct这样的推理框架之上,该框架在复杂环境中交替进行思考与行动。然而,ReAct常产生脱离实际或逻辑混乱的推理步骤,导致代理的实际状态与目标之间出现偏差。我们的分析发现,这源于ReAct无法维持一致的内部信念与目标对齐,从而引发错误累积与幻觉现象。为解决这一问题,我们提出了ReflAct,一种新型推理框架,它将推理从单纯规划下一步行动转变为持续反思代理状态与其目标之间的关系。通过明确地将决策基于当前状态并强制执行持续的目标对齐,ReflAct显著提升了策略的可靠性。这一设计带来了显著的实证收益:ReflAct平均超越ReAct达27.7%,在ALFWorld环境中实现了93.3%的成功率。值得注意的是,ReflAct甚至优于配备了额外增强模块(如Reflexion、WKM)的ReAct,表明强化核心推理框架是提升代理性能可靠性的关键。

關於基於KL正則化策略梯度算法的大語言模型推理設計
On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning

May 23, 2025
Yifan Zhang, Yifeng Liu, Huizhuo Yuan, Yang Yuan, Quanquan Gu, Andrew C Yao
52

策略梯度算法已成功應用於增強大型語言模型(LLMs)的推理能力。儘管在策略梯度算法中廣泛使用Kullback-Leibler(KL)正則化來穩定訓練,但系統性地探索不同KL散度公式如何被估計並整合到在線強化學習(RL)的代理損失函數中,呈現出一個細緻且可系統性探索的設計空間。在本文中,我們提出了正則化策略梯度(RPG),這是一個在在線RL設置下推導和分析KL正則化策略梯度方法的系統框架。我們推導了由正向和反向KL散度正則化的目標的策略梯度及相應的代理損失函數,考慮了歸一化和非歸一化的策略分佈。此外,我們還展示了完全可微的損失函數以及REINFORCE風格的梯度估計器的推導,以適應多樣的算法需求。我們使用這些方法在LLM推理的RL上進行了廣泛的實驗,結果顯示在訓練穩定性和性能方面相比於GRPO、REINFORCE++和DAPO等強基線,取得了改進或競爭性的結果。代碼可在https://github.com/complex-reasoning/RPG獲取。

價值引導搜索:高效思維鏈推理
Value-Guided Search for Efficient Chain-of-Thought Reasoning

May 23, 2025
Kaiwen Wang, Jin Peng Zhou, Jonathan Chang, Zhaolin Gao, Nathan Kallus, Kianté Brantley, Wen Sun
52

本文提出了一種簡單且高效的方法,用於在長上下文推理軌跡上訓練價值模型。與現有的過程獎勵模型(PRMs)相比,我們的方法不需要精細定義的「步驟」概念,這在長上下文推理模型中難以界定。通過收集包含250萬條推理軌跡的數據集,我們訓練了一個15億token級別的價值模型,並將其應用於DeepSeek模型,以在測試時計算資源擴展的情況下提升性能。我們發現,採用最終加權多數投票的塊狀價值引導搜索(VGS)相比標準方法(如多數投票或最佳n選一)能實現更好的測試時擴展效果。在64次生成的推理預算下,使用DeepSeek-R1-Distill-1.5B的VGS在四個競賽數學基準(AIME 2024 & 2025, HMMT Feb 2024 & 2025)上達到了45.7%的平均準確率,與o3-mini-medium持平。此外,VGS顯著降低了達到與多數投票相同性能所需的推理FLOPs。我們的數據集、模型及代碼庫均已開源。

大型語言模型僅透過閱讀就能隱含地學會視覺與聽覺理解
Large Language Models Implicitly Learn to See and Hear Just By Reading

May 20, 2025
Prateek Verma, Mert Pilanci
53

本文揭示了一個引人入勝的發現:通過在文本標記上訓練自回歸大型語言模型(LLM),該文本模型會內在地發展出理解圖像和音頻的能力,從而僅通過閱讀就能獲得視覺和聽覺的能力。流行的音頻和視覺LLM模型通常會對文本LLM模型進行微調,以根據圖像和音頻嵌入生成文本輸出。而我們的架構則以圖像塊、音頻波形或標記作為輸入,並輸出典型分類流程中的嵌入或類別標籤。我們展示了文本權重在輔助音頻分類(針對FSD-50K和GTZAN數據集)中的通用性。此外,我們還展示了其在CIFAR-10和Fashion-MNIST圖像分類以及圖像塊上的應用。這進一步推動了文本LLM學習強大內部電路的理念,這些電路可以通過激活必要連接來應用於各種場景,而無需每次都從頭開始訓練模型。

重訪殘差連接:正交更新實現穩定高效的深度網絡
Revisiting Residual Connections: Orthogonal Updates for Stable and Efficient Deep Networks

May 17, 2025
Giyeong Oh, Woohyun Cho, Siyeol Kim, Suhwan Choi, Younjae Yu
42

殘差連接對於深度神經網絡至關重要,它通過緩解梯度消失問題來實現更深的網絡結構。然而,在標準的殘差更新中,模塊的輸出直接添加到輸入流中。這可能導致更新主要強化或調節現有的流方向,從而可能未充分利用模塊學習全新特徵的能力。在本研究中,我們引入了正交殘差更新:我們將模塊的輸出相對於輸入流進行分解,並僅添加與該流正交的分量。這一設計旨在引導模塊主要貢獻新的表示方向,促進更豐富的特徵學習,同時提升訓練效率。我們證明,我們的正交更新策略在多種架構(ResNetV2、視覺Transformer)和數據集(CIFARs、TinyImageNet、ImageNet-1k)上提高了泛化準確性和訓練穩定性,例如,在ImageNet-1k上為ViT-B帶來了+4.3%的top-1準確率提升。

並非所有模型都適合專家卸載:論混合專家模型的本地路由一致性
Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models

May 21, 2025
Jingcong Liang, Siyuan Wang, Miren Tian, Yitong Li, Duyu Tang, Zhongyu Wei
32

混合專家模型(Mixture-of-Experts, MoE)能夠在推理過程中通過稀疏激活專家來高效擴展大規模語言模型(Large Language Models, LLMs)。為了在記憶體受限的設備上有效部署大型MoE模型,許多系統引入了*專家卸載*技術,將一部分專家緩存在快速記憶體中,而將其他專家留在慢速記憶體中,以便在CPU上運行或按需加載。雖然一些研究已經利用了專家激活的局部性,即連續的詞元會激活相似的專家,但這種**局部路由一致性**的程度因模型而異,並且尚未得到充分研究。在本文中,我們提出了兩個度量指標來衡量MoE模型的局部路由一致性:(1) **分段路由最佳性能(Segment Routing Best Performance, SRP)**,評估固定專家組如何滿足一段詞元的需求;(2) **分段緩存最佳命中率(Segment Cache Best Hit Rate, SCH)**,衡量在給定緩存大小限制下的最佳分段級緩存命中率。我們分析了20個不同規模和架構的MoE LLM,發現那些在每一層都應用MoE且不使用共享專家的模型表現出最高的局部路由一致性。我們進一步表明,領域專家的貢獻大於詞彙專家,並且大多數模型可以在緩存大小約為激活專家數量的2倍時,平衡緩存的有效性和效率。這些發現為在不影響推理速度的情況下實現記憶體高效的MoE設計和部署鋪平了道路。我們在https://github.com/ljcleo/moe-lrc 上發布了用於重複實驗的代碼。

NOVER:基於無驗證器強化學習的語言模型激勵訓練
NOVER: Incentive Training for Language Models via Verifier-Free Reinforcement Learning

May 21, 2025
Wei Liu, Siya Qi, Xinyu Wang, Chen Qian, Yali Du, Yulan He
35

近期如DeepSeek R1-Zero的进展凸显了激励训练的有效性,这是一种强化学习范式,其奖励计算仅基于语言模型输出的最终答案部分,从而鼓励生成中间推理步骤。然而,这些方法从根本上依赖于外部验证器,这限制了它们在数学和编程等验证器易于获取的领域中的应用。尽管奖励模型可作为验证器,但它们需要高质量标注数据且训练成本高昂。在本研究中,我们提出了NOVER,即无验证器强化学习框架,这是一个仅需标准监督微调数据、无需外部验证器的通用强化学习框架。NOVER能够在广泛的文本到文本任务中实现激励训练,并在相同规模模型上,相较于从DeepSeek R1 671B等大型推理模型蒸馏出的模型,性能提升了7.7%。此外,NOVER的灵活性为优化大型语言模型开辟了新的可能性,例如逆向激励训练。

確保安全!在問答系統中對抗間接攻擊的大型語言模型上下文安全策略保持基準測試
Keep Security! Benchmarking Security Policy Preservation in Large Language Model Contexts Against Indirect Attacks in Question Answering

May 21, 2025
Hwan Chang, Yumin Kim, Yonghyun Jun, Hwanhee Lee
32

随着大型语言模型(LLMs)在企业与政府等敏感领域中的部署日益增多,确保其在上下文中遵循用户定义的安全策略变得至关重要——尤其是在信息保密方面。尽管以往的LLM研究主要关注一般安全性和社会敏感数据,但针对上下文安全防护的大规模基准测试仍显不足。为此,我们引入了一个新颖的大规模基准数据集——CoPriva,用于评估LLM在问答任务中遵守上下文保密政策的情况。该数据集源自现实情境,包含明确的政策及查询设计,这些查询既包括直接攻击,也包括旨在获取禁止信息的具有挑战性的间接攻击。我们对10个LLM进行了基准测试,揭示了一个显著漏洞:许多模型违反用户定义的政策,泄露敏感信息。这一失败在应对间接攻击时尤为严重,凸显了当前LLM在敏感应用安全对齐方面存在的关键差距。我们的分析表明,尽管模型通常能够识别查询的正确答案,但在生成过程中融入政策约束方面却面临困难。相比之下,当被明确提示时,它们展现出了一定程度的输出修正能力。这些发现强调了开发更为稳健的方法以确保上下文安全的迫切需求。

FREESON:基於語料庫遍歷MCTS的無檢索器增強推理
FREESON: Retriever-Free Retrieval-Augmented Reasoning via Corpus-Traversing MCTS

May 22, 2025
Chaeeun Kim, Seungone Kim
22

大型推理模型(LRMs)在多步推理及適時調用搜索引擎方面展現了卓越的能力。然而,現有的檢索增強推理方法依賴於獨立的檢索模型,這限制了LRM在檢索中的角色,僅限於決定何時檢索及如何查詢。這種分離不僅增加了硬件和運營成本,還因表示瓶頸現象導致檢索過程中的錯誤,即檢索器的嵌入空間不足以滿足生成器的需求。為解決這一問題,我們將視角從序列到序列的匹配轉向定位語料庫中包含答案的路徑,並提出了一個名為FREESON(無檢索器的檢索增強推理)的新框架。該框架使LRM能夠作為生成器和檢索器,自主檢索相關知識。為實現這一點,我們引入了一種專為檢索任務設計的MCTS算法變體,稱為CT-MCTS(語料庫遍歷蒙特卡洛樹搜索)。在此算法中,LRM遍歷語料庫,尋找包含答案的區域。我們在五個開放域QA基準測試(包括單跳和多跳問題)上的結果顯示,FREESON在EM和F1指標上平均比使用獨立檢索器的四種多步推理模型提升了14.4%,並且與最強的基線模型表現相當,在PopQA和2WikiMultihopQA上分別超出3%和2%。

透過動態筆記撰寫增強大型語言模型的推理能力以應對複雜問答
Augmenting LLM Reasoning with Dynamic Notes Writing for Complex QA

May 22, 2025
Rishabh Maheshwary, Masoud Hashemi, Khyati Mahajan, Shiva Krishna Reddy Malay, Sai Rajeswar, Sathwik Tejaswi Madhusudhan, Spandana Gella, Vikas Yadav
22

迭代式檢索增強生成(RAG)在多跳問答任務中面臨著長篇上下文和無關信息積累的挑戰。這阻礙了模型處理和推理檢索內容的能力,並限制了其表現。儘管近期方法專注於壓縮檢索信息,但它們要么僅適用於單輪RAG,要么需要微調,或在迭代RAG中缺乏可擴展性。為應對這些挑戰,我們提出了筆記撰寫法,該方法在每一步從檢索文檔中生成簡明且相關的筆記,從而減少噪音並僅保留關鍵信息。這間接增加了大型語言模型(LLMs)的有效上下文長度,使其在處理更大規模輸入文本時能更有效地進行推理和規劃。筆記撰寫法與框架無關,可與不同的迭代RAG方法集成。我們通過三種迭代RAG方法、兩種模型和四個評估數據集展示了其有效性。筆記撰寫法總體平均提升了15.6個百分點,且輸出標記的增加極小。

TIME:大型語言模型在現實場景中多層次時間推理的基準測試
TIME: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios

May 19, 2025
Shaohang Wei, Wei Li, Feifan Song, Wen Luo, Tianyi Zhuang, Haochen Tan, Zhijiang Guo, Houfeng Wang
22

時間推理對於大型語言模型(LLMs)理解現實世界至關重要。然而,現有研究往往忽略了時間推理在現實世界中的挑戰:(1) 密集的時間信息,(2) 快速變化的事件動態,以及(3) 社交互動中複雜的時間依賴性。為彌補這一差距,我們提出了一個多層次基準測試TIME,專為現實場景中的時間推理設計。TIME包含38,522個問答對,涵蓋3個層次和11個細分任務。該基準測試包含3個反映不同現實挑戰的子數據集:TIME-Wiki、TIME-News和TIME-Dial。我們在推理模型和非推理模型上進行了廣泛的實驗,並深入分析了不同現實場景和任務中的時間推理表現,總結了測試時擴展對時間推理能力的影響。此外,我們發布了TIME-Lite,這是一個人類標註的子集,旨在促進未來時間推理研究和標準化評估。代碼可在https://github.com/sylvain-wei/TIME獲取,數據集可在https://huggingface.co/datasets/SylvainWei/TIME下載。

尼羅河對話:邁向語言多樣性與文化意識的大語言模型,服務在地社群
NileChat: Towards Linguistically Diverse and Culturally Aware LLMs for Local Communities

May 23, 2025
Abdellah El Mekki, Houdaifa Atou, Omer Nacar, Shady Shehata, Muhammad Abdul-Mageed
12

提升大型語言模型(LLMs)的語言能力,使其涵蓋低資源語言,是一個至關重要的研究領域。當前的研究方向主要依賴於通過翻譯英語語料庫生成的合成數據,這些數據雖然展示了良好的語言理解和翻譯能力,但往往導致模型與源語言文化保持一致。這些模型經常無法代表當地社區的文化遺產和價值觀。本研究提出了一種方法,旨在創建針對特定社區的合成和基於檢索的預訓練數據,考慮其(i)語言,(ii)文化遺產,以及(iii)文化價值觀。我們以埃及和摩洛哥方言為測試平台,展示了我們的方法,這些方言因其語言和文化的豐富性以及目前在LLMs中的代表性不足而被選中。作為概念驗證,我們開發了NileChat,這是一個擁有30億參數的LLM,專為埃及和摩洛哥社區量身定制,融入了他們的語言、文化遺產和價值觀。我們在各種理解、翻譯以及文化和價值觀對齊基準測試中的結果表明,NileChat在性能上超越了現有相似規模的阿拉伯語感知LLMs,並與更大模型表現相當。我們向社區分享我們的方法、數據和模型,以促進LLM開發中更多元化社區的包容性和覆蓋範圍。

伏羲MT:面向中文中心的多語言機器翻譯之大規模語言模型稀疏化
FuxiMT: Sparsifying Large Language Models for Chinese-Centric Multilingual Machine Translation

May 20, 2025
Shaolin Zhu, Tianyu Dong, Bo Li, Deyi Xiong
12

本文提出了一種新型的以中文為核心的多語言機器翻譯模型——FuxiMT,該模型基於稀疏化的大型語言模型(LLM)驅動。我們採用兩階段策略來訓練FuxiMT:首先在大量中文語料上進行預訓練,然後在包含65種語言的大規模平行數據集上進行多語言微調。FuxiMT整合了專家混合(MoEs)機制,並採用課程學習策略以確保在不同資源條件下的穩健性能。實驗結果表明,FuxiMT顯著超越了包括最先進的LLM和機器翻譯模型在內的強基線,特別是在低資源場景下表現尤為突出。此外,FuxiMT展現出對未見語言對的卓越零樣本翻譯能力,這表明其在平行數據稀缺或缺失的情況下,具有彌合溝通鴻溝的潛力。

通用生物序列重排序提升全新肽段測序效能
Universal Biological Sequence Reranking for Improved De Novo Peptide Sequencing

May 23, 2025
Zijie Qiu, Jiaqi Wei, Xiang Zhang, Sheng Xu, Kai Zou, Zhi Jin, Zhiqiang Gao, Nanqing Dong, Siqi Sun
02

從頭肽段測序是蛋白質組學中的一項關鍵任務。然而,當前基於深度學習的方法的性能受到質譜數據固有複雜性和噪聲信號異質性分佈的限制,導致數據特異性偏差。我們提出了RankNovo,這是第一個深度重排序框架,通過利用多種測序模型的互補優勢來增強從頭肽段測序。RankNovo採用列表式重排序方法,將候選肽段建模為多重序列比對,並利用軸向注意力來提取候選肽段之間的信息特徵。此外,我們引入了兩個新指標,PMD(肽段質量偏差)和RMD(殘基質量偏差),通過在序列和殘基水平上量化肽段之間的質量差異,提供精細的監督。大量實驗表明,RankNovo不僅超越了用於生成訓練候選肽段的基礎模型,還設定了新的最先進基準。此外,RankNovo在未見模型上表現出強大的零樣本泛化能力,這些模型的生成在訓練期間未被暴露,突顯了其作為肽段測序通用重排序框架的魯棒性和潛力。我們的工作提出了一種新穎的重排序策略,從根本上挑戰了現有的單一模型範式,並推動了精確從頭測序的前沿。我們的源代碼已在GitHub上提供。

May 23
May 26
May 27