HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

29 papers found

基於群組層級自然語言反饋的強化學習探索引導機制
Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

Mar 4

ByLei Huang, Xiang Cheng, Chenxiao Zhao, Guobin Shen, Junjie Yang, Xiaocheng Feng, Yuxuan Gu, Xing Yu, Bing Qin

204

大型语言模型（LLMs）通常通过与环境交互获得多样化的自然语言反馈。然而，当前强化学习（RL）算法仅依赖标量奖励，导致自然语言反馈中的丰富信息未被充分利用，从而造成探索效率低下。本研究提出GOLF——一种通过可执行修正来利用群体层级语言反馈指导定向探索的RL框架。该框架聚合两种互补的反馈源：（i）指出错误或提出针对性修正的外部评判；（ii）提供替代性局部思路及多样化失败模式的组内尝试。这些群体层级反馈经聚合后生成高质量修正方案，并以自适应方式作为离策略脚手架注入训练过程，为稀疏奖励区域提供定向指导。与此同时，GOLF在统一RL循环中联合优化生成与修正能力，形成持续提升双重能力的良性循环。在可验证与不可验证基准测试上的实验表明，GOLF实现了卓越的性能与探索效率，其样本效率较仅使用标量奖励的RL方法提升2.2倍。代码已发布于https://github.com/LuckyyySTA/GOLF。

OpenClaw-RL：透過自然語言對話訓練任意智能體
OpenClaw-RL: Train Any Agent Simply by Talking

Mar 10

ByYinjie Wang, Xuyang Chen, Xiaolong Jin, Mengdi Wang, Ling Yang

130

每次智能體互動都會產生下一狀態信號——即用戶回覆、工具輸出、終端或圖形介面狀態變化等行動後續反應，但現有強化學習系統均未將其作為即時線上學習來源進行採集。我們提出OpenClaw-RL框架，其核心基於一個簡單發現：下一狀態信號具有普適性，策略可同步從所有信號中學習。個人對話、終端執行、圖形介面互動、軟體工程任務與工具調用軌跡並非獨立的訓練問題，而是能在同一循環中訓練同一策略的互動資源。下一狀態信號編碼了兩種信息：評估信號（通過PRM評判器提取為標量獎勵，反映行動效果優劣）與指導信號（通過 hindsight-guided 策略蒸餾技術還原行動應有改進方向）。我們從下一狀態提取文本提示，構建增強型教師上下文，提供比標量獎勵更豐富的詞元級方向優勢監督。憑藉異步設計，模型處理實時請求、PRM評判持續互動、訓練器更新策略三者可同步進行，且無需協調開銷。應用於個人助理時，OpenClaw-RL使智能體能通過日常使用自我提升，從用戶重複查詢、修正與顯式反饋中提取對話信號；應用於通用智能體時，同一基礎架構支持終端、圖形介面、軟體工程及工具調用場景的可擴展強化學習，並額外驗證了過程獎勵的實用性。程式碼開源於：https://github.com/Gen-Verse/OpenClaw-RL

Flash-KMeans：快速且記憶體高效的精確K-Means演算法
Flash-KMeans: Fast and Memory-Efficient Exact K-Means

Mar 10

ByShuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Xiaoze Fan, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Kurt Keutzer, Song Han, Chenfeng Xu, Ion Stoica

k-means 演算法歷史上主要被定位為離線處理原語，通常用於資料集組織或嵌入預處理，而非作為線上系統的一等組件。在本研究中，我們透過現代 AI 系統設計的視角重新審視這一經典演算法，將 k-means 實現為線上原語。我們指出，現有的 GPU k-means 實現仍受制於底層系統約束而非理論演算法複雜度。具體而言，分配階段因高頻寬記憶體中 N×K 距離矩陣的大規模顯式實體化而存在嚴重 IO 瓶頸；同時，質心更新階段因不規則散射式 token 聚合導致的硬體級原子寫入競爭而效能受限。為消除此效能差距，我們提出 flash-kmeans——專為現代 GPU 工作負載設計的 IO 感知無競爭 k-means 實現。該實現包含兩項核心核心級創新：(1) FlashAssign 透過距離計算與線上 argmin 的融合，徹底規避中介記憶體實體化；(2) 排序反向更新透過顯式構建反向映射，將高競爭原子散射轉化為高頻寬分段級局部歸約。此外，我們整合演算法-系統協同設計（包括分塊流重疊與快取感知編譯啟發式），確保實際部署可行性。在 NVIDIA H200 GPU 上的大量實驗表明，flash-kmeans 相較最佳基準實現實現最高 17.9 倍的端到端加速，並分別以 33 倍和 200 倍以上的效能優勢超越 cuML、FAISS 等業界標準函式庫。

LLM2Vec-Gen：基於大型語言模型的生成式嵌入技術
LLM2Vec-Gen: Generative Embeddings from Large Language Models

Mar 11

ByParishad BehnamGhader, Vaibhav Adlakha, Fabian David Schmidt, Nicolas Chapados, Marius Mosbach, Siva Reddy

基於大型語言模型的文字嵌入器通常會對輸入語義內容進行編碼。然而，嵌入任務需要將多樣化的輸入映射到相似的輸出。傳統上，這種輸入輸出映射是通過對比學習使用配對數據訓練嵌入模型來實現的。本研究提出一種新穎的自監督方法LLM2Vec-Gen，採用不同範式：我們不直接編碼輸入內容，而是學習表徵模型潛在的響應。具體而言，我們在LLM詞彙表中添加可訓練的特殊標記，將其附加至輸入後端，並優化這些標記以固定長度序列表徵LLM的響應。訓練過程由LLM自身對查詢的補全結果引導，同時結合提供蒸餾目標的無監督嵌入教師模型。此設計有助於彌合輸入輸出間的差距，並將LLM的安全對齊與推理等能力遷移至嵌入任務。關鍵在於，LLM骨幹網絡保持凍結狀態，且訓練僅需未標註的查詢數據。LLM2Vec-Gen在Massive Text Embedding Benchmark（MTEB）上實現了最先進的自監督性能，相較最佳無監督嵌入教師模型提升9.3%。我們還觀察到嵌入任務中有害內容檢索量減少達43.2%，推理能力提升29.3%。最終，學習得到的嵌入具備可解釋性，可通過解碼為文字揭示其語義內容。

大型語言模型中工具使用的上下文強化學習（注：這裏的"In-Context Reinforcement Learning"採用"上下文強化學習"的譯法，既保留了強化學習的專業術語特徵，又通過"上下文"準確傳達了在特定語境下進行學習的含義。"Tool Use"譯為"工具使用"符合AI領域對工具調用能力的標準表述。）
In-Context Reinforcement Learning for Tool Use in Large Language Models

Mar 9

ByYaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh

儘管大型語言模型展現出強大的推理能力，但其在複雜任務上的表現往往受制於內在知識的侷限性。為克服此挑戰，一種有效的方法是透過外部工具增強模型能力——例如使用Python直譯器進行數學運算，或利用搜尋引擎獲取事實資訊。然而，如何讓模型有效運用這些工具仍是重大難題。現有方法通常採用冷啟動流程：先進行監督式微調，再實施強化學習。這類方法往往需要大量標註數據進行監督式微調，而數據標註或合成的成本極高。本研究提出「情境內強化學習」，此純強化學習框架透過在強化學習的推論階段採用少樣本提示，消除了對監督式微調的依賴。具體而言，ICRL在推論提示中引入情境範例，教導模型如何調用外部工具。隨著訓練推進，情境範例的數量會逐步遞減，最終達到模型能獨立呼叫工具的零樣本設定。我們在多項推理與工具使用基準測試中進行廣泛實驗，結果顯示ICRL實現了最先進的性能，證明其可作為傳統基於監督式微調流程的可擴展、高數據效率替代方案。

MA-EgoQA：基於多具身智能體第一人稱視角的問答系統
MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

Mar 10

ByKangsan Kim, Yanlai Yang, Suji Kim, Woongyeong Yeo, Youngwan Lee, Mengye Ren, Sung Ju Hwang

隨著具身模型日益強大，未來人類將在工作場所或家庭中與多個具身人工智慧代理協作。為確保人類使用者與多代理系統之間更順暢的溝通，關鍵在於並行解讀來自多個代理的輸入資訊，並針對每個查詢參照相應的情境脈絡。現有挑戰包括：如何有效壓縮並傳遞以影片形式呈現的大量個體感官輸入，以及如何正確聚合多個以自我為中心的視角影片以建構系統級記憶。本研究首先正式定義了一個新問題——同時理解從具身代理收集的多段長時程第一視角影片。為推動此方向的研究，我們提出MultiAgent-EgoQA（MA-EgoQA）基準測試，旨在系統性評估現有模型在我們設想情境中的表現。MA-EgoQA包含1,700道專為多視角串流量身設計的問題，涵蓋五大類別：社交互動、任務協調、心智理論、時間推理與環境互動。我們進一步提出名為EgoMAS的簡易基準模型，該模型利用具身代理間的共享記憶及代理級動態檢索技術。透過對MA-EgoQA上多種基準模型與EgoMAS的綜合評估，我們發現現有方法尚無法有效處理多視角串流，這凸顯了未來需在跨代理系統級理解方面取得突破。相關程式碼與基準測試已公開於https://ma-egoqa.github.io。

ReMix：大型語言模型微調中LoRA混合體的強化路由機制
ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

Mar 10

ByRuizhong Qiu, Hanqing Zeng, Yinglong Xia, Yiwen Meng, Ren Chen, Jiarui Feng, Dongqi Fu, Qifan Wang, Jiayi Liu, Jun Xiao, Xiangjun Fan, Benyu Zhang, Hong Li, Zhining Liu, Hyunsik Yoo, Zhichen Zeng, Tianxin Wei, Hanghang Tong

低秩適配器（LoRA）是一種參數高效的微調技術，通過向預訓練模型注入可訓練的低秩矩陣，使其適應新任務。混合LoRA模型通過將每層輸入路由至該層專用LoRA的小型子集，實現神經網絡的高效擴展。現有混合LoRA路由器為每個LoRA分配可學習的路由權重，以實現路由器的端到端訓練。儘管具備實證潛力，我們觀察到實際應用中路由權重通常極度不平衡，往往僅有一兩個LoRA主導路由權重。這本質上限制了有效LoRA的數量，從而嚴重制約現有混合LoRA模型的表達能力。本文將此缺陷歸因於可學習路由權重的本質，並重新思考路由器的基礎設計。為解決此關鍵問題，我們提出名為「混合LoRA強化路由」（ReMix）的新型路由器設計，其核心思想是採用不可學習的路由權重，確保所有活躍LoRA均能等效發揮作用，避免單個LoRA壟斷路由權重。然而，由於採用不可學習路由權重，我們的路由器無法直接通過梯度下降進行訓練。為此，我們進一步基於強化學習中的留一法獎勵（RLOO）技術，提出無偏梯度估計器：將監督損失視為獎勵，路由器視為策略。該梯度估計器還能擴展訓練計算規模，從而提升ReMix的預測性能。大量實驗表明，在激活參數數量相當的條件下，我們提出的ReMix顯著優於當前最先進的參數高效微調方法。

大型语言模型能否跟上步伐？基于持续知识流的在线适应能力基准测试
Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

Mar 8

ByJiyeon Kim, Hyunji Lee, Dylan Zhou, Sue Hyun Park, Seunghyun Yoon, Trung Bui, Franck Dernoncourt, Sungmin Cha, Minjoon Seo

在动态现实场景中运行的大型语言模型常面临持续演进或渐进涌现的知识。为保持准确性与有效性，模型必须实时适应不断更新的信息。我们提出"持续知识流的在线自适应"评估框架，为流式持续更新知识环境中的在线适应能力建立基准。该基准具体呈现为细粒度语境片段序列，其中事实会随时间区间动态变化。OAKS包含OAKS-BABI和OAKS-Novel两个数据集，单个事实会在不同语境片段间经历多次演变。这些数据集通过密集标注来测量模型追踪变化的准确性。通过对14种采用不同推理方法的模型进行评估，我们发现现有方法存在显著局限：无论是前沿模型还是具有记忆功能的智能体系统，在OAKS基准中均未能实现稳健适应，表现出状态追踪延迟以及易受流式环境干扰的特性。

ID-LoRA：基于身份驱动的上下文LoRA音视频个性化技术
ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA

Mar 10

ByAviad Dahan, Moran Yanuka, Noa Kraicer, Lior Wolf, Raja Giryes

现有视频个性化方法虽能保持视觉相似度，却将视频与音频分开处理。由于音频模型无法获取视觉场景信息，难以实现声音与屏幕动作的同步；而传统语音克隆模型仅依赖参考录音进行条件约束，导致文本提示无法调整说话风格或声学环境。我们提出ID-LoRA（身份驱动的上下文LoRA），通过单一模型联合生成主体的外观与声音，使文本提示、参考图像和短音频片段共同调控两种模态。该方法基于参数高效的上下文LoRA对LTX-2联合音视频扩散主干进行适配，据我们所知，这是首个在单次生成过程中同步实现视觉外观与语音个性化的方法。我们面临两大挑战：参考标记与生成标记共享位置编码空间导致难以区分，为此我们采用负时间位置编码，将参考标记置于不相交的RoPE区域同时保留其内部时序结构；此外说话人特征在去噪过程中易被稀释，我们引入身份引导技术——一种无需分类器的引导变体，通过对比有无参考信号时的预测结果来增强说话人特异性特征。在人类偏好研究中，73%的标注者认为ID-LoRA在声音相似度上优于Kling 2.6 Pro，65%认为其说话风格更佳。在跨环境设置下，说话人相似度较Kling提升24%，且环境差异越大优势越明显。初步用户研究表明，联合生成为物理基础的声音合成提供了有效的归纳偏置。ID-LoRA仅需在单GPU上使用约3000个训练对即可达成上述成果。代码、模型及数据将公开发布。

SVG-EAR：基於誤差感知路由的稀疏影片生成無參數線性補償
SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

Mar 9

ByXuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin Cheung

擴散轉換器（DiT）已成為視訊生成的主流骨幹架構，但其二次方複雜度的注意力計算成本仍是主要瓶頸。稀疏注意力通過僅計算部分注意力區塊來降低成本，然而現有方法往往直接捨棄剩餘區塊導致資訊損失，或依賴學習型預測器進行近似，這會引入訓練開銷並可能引發輸出分佈偏移。本文提出無需訓練即可恢復缺失貢獻的方法：經過語義聚類後，各區塊內的鍵值對呈現高度相似性，可透過少量聚類質心有效表徵。基於此發現，我們設計了無參數的線性補償分支SVG-EAR，利用質心近似被跳過的區塊並恢復其貢獻。雖然質心補償對多數區塊準確有效，但在少量區塊上可能失效。傳統稀疏化通常根據注意力分數選擇區塊，該分數反映模型關注重點，卻無法標識近似誤差最大的區域。為此SVG-EAR採用誤差感知路由機制：通過輕量級探測器估算各區塊的補償誤差，精確計算誤差-成本比最高的區塊，同時對跳過區塊進行補償。我們從理論上證明了注意力重建誤差與聚類質量的關聯性，並通過實驗驗證SVG-EAR在視訊擴散任務中能提升質量-效率權衡，在保持生成保真度的同時提高吞吐量。相較既有方法，SVG-EAR建立了顯著的帕累托最優邊界，在Wan2.2和HunyuanVideo數據集上分別實現1.77倍與1.93倍加速，同時維持29.759與31.043的峰值信噪比。

CodePercept：面向多模态大语言模型的代码驱动型视觉STEM感知框架
CodePercept: Code-Grounded Visual STEM Perception for MLLMs

Mar 11

ByTongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang

当多模态大语言模型（MLLMs）在科学、技术、工程和数学（STEM）视觉推理任务中表现不佳时，一个根本性问题随之产生：这究竟是源于感知缺陷还是推理局限？通过独立缩放感知与推理组件的系统性规模分析，我们获得关键发现：增强感知能力始终优于强化推理能力。这表明感知能力才是当前制约STEM视觉推理的真正瓶颈。基于此发现，我们的研究致力于通过建立代码作为强大感知媒介来系统提升MLLMs的感知能力——可执行代码提供的精确语义天然契合STEM视觉内容的结构化特性。具体而言，我们构建了ICC-1M大规模数据集，包含100万个图像-描述-代码三元组，通过两种互补方法实现这一代码即感知范式：（1）代码锚定描述生成将可执行代码作为图像描述的真实基准，消除现有知识蒸馏方法固有的幻觉问题；（2）STEM图像到代码转换引导模型生成重构代码，通过规避自然语言的模糊性来增强感知。为验证该范式，我们进一步推出STEM2Code-Eval新型基准测试，直接评估STEM领域的视觉感知能力。与依赖解题准确率作为代理指标（仅衡量问题相关理解）的现有研究不同，我们的基准要求通过生成可执行代码实现图像重构，从而达成对视觉内容的全面理解，并提供确定性与可验证的评估方案。代码已开源：https://github.com/TongkunGuan/Qwen-CodePercept。

RetroAgent：通过回溯式双重内在反馈实现从解题到进化的跨越
RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

Mar 9

ByXiaoying Zhang, Zichen Liu, Yipeng Zhang, Xia Hu, Wenqi Shao

基于大型语言模型（LLM）的智能体通过强化学习（RL）训练后，在复杂交互任务中展现出巨大潜力。然而传统RL范式偏向静态问题求解而非持续适应：智能体常因探索不足而收敛至次优策略，所学知识也仅隐式存储于参数中难以显式调用，限制了有效经验学习。为此我们提出RetroAgent——一种在线RL框架，使智能体不仅能解决问题，更能通过持续进化掌握复杂交互环境。具体而言，RetroAgent具备 hindsight 自反思机制，可生成双重内在反馈：（1）追踪当前尝试相对于历史进度的增量式子任务完成度，为有潜力的探索提供奖励的数值反馈；（2）将可复用经验提炼存储至记忆缓冲区，并通过我们提出的相似度与效用感知上置信界（SimUtil-UCB）策略进行检索的语言反馈。该策略平衡相关性、效用性与探索性，实现对过往经验的高效利用。在四个挑战性智能体任务上对两类模型系列的实验表明，RetroAgent显著优于现有方法，取得突破性成果——如在ALFWorld任务上超越GRPO训练智能体18.3%、WebShop提升15.4%、Sokoban提高27.1%、MineSweeper增长8.9%——同时展现出强大的测试时适应能力与对分布外场景的泛化性能。

Prism-Δ：面向大语言模型提示强调的差分子空间引导技术
Prism-Δ: Differential Subspace Steering for Prompt Highlighting in Large Language Models

Mar 11

ByYuyao Ge, Shenghua Liu, Yiwei Wang, Tianyu Liu, Baolong Bi, Lingrui Mei, Jiayu Yao, Jiafeng Guo, Xueqi Cheng

提示词高亮技术通过引导大型语言模型在生成过程中优先处理用户指定的文本片段，其核心挑战在于提取能够区分相关与无关语境的引导方向，而非两者共有的结构模式。我们提出PRISM-Δ（基于投影的相关性感知引导方法），该方法通过解构正负交叉协方差矩阵的差异，在消除共享方向的同时最大化判别能量。每个注意力头会获得连续的softplus重要性权重，使弱效但有用的注意力头能以降低的强度参与计算。该框架可自然扩展至Value表征，捕获仅使用Key的方法所忽略的内容通道信号。在四个基准测试和五种模型上的实验表明，PRISM-Δ在20种配置中的19项达到或超越现有最佳方法，相对增益最高达+10.6%，同时将引导的流畅性损耗降低一半。PRISM-Δ还能适应长上下文检索任务，以最高+4.8%的相对增益优于现有最佳方法。该方法兼容FlashAttention技术，且仅增加可忽略的内存开销。

迷失在反向传播中：语言模型头部的梯度瓶颈问题
Lost in Backpropagation: The LM Head is a Gradient Bottleneck

Mar 10

ByNathan Godey, Yoav Artzi

神经语言模型（LMs）的最后一层需将维度为D的输出特征映射至词汇表大小V维度的逻辑值，而通常存在D远小于V的维度失配问题。这种失配不仅会引发表达能力受限的风险（即所谓的softmax瓶颈），本文更揭示其同时构成优化瓶颈。当V维梯度经由秩为D的线性层反向传播时，会引发不可避免的压缩效应，从而改变传递给绝大多数参数的训练反馈。我们通过理论分析证明并实证测得95-99%的梯度范数被输出层抑制，导致更新方向严重偏离最优轨迹。受控预训练实验表明，梯度瓶颈会使简单模式变得不可学习，并显著影响大语言模型的训练动态。我们认为这一固有缺陷在不同模型架构下均会导致大规模训练的低效性，从而凸显了设计新型语言模型头结构的迫切需求。

V_{0.5}：作为稀疏强化学习 rollout 先验的通用价值模型
V_{0.5}: Generalist Value Model as a Prior for Sparse RL Rollouts

Mar 11

ByYi-Kai Zhang, Yueqing Sun, Hongyan Hao, Qi Gu, Xunliang Cai, De-Chuan Zhan, Han-Jia Ye

在可驗證獎勵的強化學習（RLVR）框架中，構建穩健的優勢基線對策略梯度至關重要，能有效引導策略模型強化預期行為。近期研究提出的通用價值模型（如V_0）通過在上下文中顯式編碼模型能力，實現無需與策略模型同步更新的預訓練價值估計。本文提出V_{0.5}模型，自適應融合此類價值模型的預測基線（作為先驗）與稀疏抽樣得到的經驗均值，構建出兼具計算效率與極低方差的穩健基線。具體而言，我們引入實時統計檢驗與動態預算分配機制，平衡稀疏採樣的高方差與價值模型先驗固有的系統偏差（或幻覺）。通過假設檢驗實時評估先驗可靠性，系統能按需動態分配額外抽樣預算。該機制使基線估計器的均方誤差（MSE）最小化，即使在分組大小為4的極端稀疏條件下，仍能保證策略梯度的穩定性。在六個數學推理基準上的廣泛實驗表明，V_{0.5}顯著優於GRPO與DAPO，實現更快的收斂速度與約10%以上的性能提升。

即时加速：无需训练的扩散变换器空间优化技术
Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers

Mar 11

ByWenhao Sun, Ji Li, Zhaoqiang Liu

扩散变换器虽已在图像合成领域确立全新标杆，但其迭代采样过程的高计算成本严重制约了实际应用。现有加速方法多聚焦于时间维度，却忽视了生成过程中固有的空间冗余性——全局结构往往在精细细节形成前早已显现。对全部空间区域采用均质化计算处理，构成了关键性效率瓶颈。本文提出即时生成框架，通过空间维度加速突破这一难题。该框架构建了空间近似生成常微分方程，基于动态选定的稀疏锚点令牌计算驱动全潜态演化。为确保新令牌融入扩展潜态维度时的无缝过渡，我们设计了确定性微流——一种简洁有效的有限时间常微分方程，可同步保持结构连贯性与统计准确性。在顶尖FLUX.1-dev模型上的大量实验表明，即时生成框架可实现近无损性能的7倍加速，显著超越现有加速方法，在推理速度与生成保真度间建立了更优越的平衡点。

RbtAct：以反駁作為監督機制生成可操作評論反饋
RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

Mar 10

BySihong Wu, Yiling Ma, Yilun Zhao, Tiansheng Hu, Owen Jiang, Manasi Patwardhan, Arman Cohan

大型語言模型（LLMs）在科學工作流程中的應用日益廣泛，包括用於起草同行評審報告。然而，許多AI生成的評審內容流於表面且缺乏可操作性，導致作者無法獲得具體可行的指導，這正是本研究致力解決的關鍵問題。我們提出RbtAct方法，該方法以生成具有可操作性的評審反饋為目標，並將現有的論文答辯環節置於學習過程的核心位置。論文答辯能揭示哪些評審意見促成了具體修改或明確計劃，而哪些意見僅被作者辯護維持。基於此洞察，我們利用答辯內容作為隱式監督信號，直接優化反饋生成器的可操作性。為實現這一目標，我們提出一項新任務——視角約束的段落級評審反饋生成，要求模型基於完整論文及指定視角（如實驗設計、寫作表達）生成聚焦的單點評論。同時構建了包含7.5萬條數據的RMR-75K數據集，其中標註了評審段落與對應答辯段落的映射關係、視角標籤以及反映作者接納程度的影響類別。我們採用監督微調方式在評審段落上訓練Llama-3.1-8B-Instruct模型，隨後利用基於答辯數據構建的偏好對進行偏好優化。經專家評測和LLM作為評判者的實驗表明，該方法在保持內容相關性和紮實度的同時，相較強基線模型在可操作性與具體性方面實現了持續提升。

用户自述：基于长期个性化指代记忆的问答系统
According to Me: Long-Term Personalized Referential Memory QA

Mar 2

ByJingbiao Mei, Jinghong Chen, Guangyu Yang, Xinyu Hou, Margaret Li, Bill Byrne

个性化人工智能助手需具备对长期用户记忆的调用与推理能力，这些记忆天然跨越多种模态和来源（如图像、视频和电子邮件）。然而现有长期记忆基准主要聚焦于对话历史，未能捕捉基于真实生活体验的个性化参照。我们推出ATM-Bench——首个面向多模态、多源个性化参照记忆问答的基准测试。该基准包含近四年的隐私保护型个人记忆数据、人工标注的问答对及真实记忆证据，涵盖需要解析个人参照、多源证据推理以及处理矛盾证据的查询类型。我们提出模式引导记忆法（SGM），对源自不同渠道的记忆项进行结构化表征。实验中，我们实现了5种最先进的记忆系统与标准RAG基线，并评估了采用不同记忆录入、检索及答案生成技术的变体。研究发现：现有系统在ATM-Bench困难集上表现不佳（准确率低于20%），且SGM相较前人工作中常用的描述性记忆法具有性能提升。代码地址：https://github.com/JingbiaoMei/ATM-Bench

CLIPO：策略优化中的对比学习泛化RLVR
CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

Mar 10

BySijia Cui, Pengyu Cheng, Jiajun Song, Yongbo Gai, Guojun Zhang, Zhechao Yu, Jianhe Lin, Xiaoxi Jiang, Guanjun Jiang

基于可验证奖励的强化学习（RLVR）显著提升了大型语言模型（LLM）的推理能力。然而，RLVR仅依赖最终答案作为结果奖励，忽略了中间推理步骤的正确性。对这类过程错误但结果正确的推演轨迹进行训练，可能导致幻觉和答案复制问题，严重损害模型的泛化能力和鲁棒性。为解决此问题，我们在策略优化中引入对比学习机制（CLIPO）来泛化RLVR过程。通过优化成功轨迹上的对比损失，CLIPO引导LLM捕捉正确推理路径间共享的不变结构。相较于RLVR原有的单一路径监督，该方法提供了更稳健的跨轨迹正则化，有效缓解步骤级推理不一致性并抑制幻觉伪影。实验表明，在多样化推理基准测试中，CLIPO对多种RLVR基线模型均带来持续提升，证明了其在LLM策略优化方面对泛化性和鲁棒性的统一改进。我们的代码与训练方案已开源：https://github.com/Qwen-Applications/CLIPO。

长视野大语言模型智能体的后见之明信用分配
Hindsight Credit Assignment for Long-Horizon LLM Agents

Mar 7

ByHui-Ze Tan, Xiao-Wen Yang, Hao Chen, Jie-Jing Shao, Yi Wen, Yuteng Shen, Weihong Luo, Xiku Du, Lan-Zhe Guo, Yu-Feng Li

在大规模语言模型（LLM）智能体处理长周期、多步骤任务时，由于奖励稀疏性常面临显著的信用分配难题。现有无价值函数方法（如GRPO）存在两大瓶颈：不精确的步骤级Q值估计与中间状态的价值基线失准。为突破这些局限，我们提出HCAPO——首个将事后信用分配机制集成至LLM智能体的框架。该框架利用LLM自身作为事后评判器，通过回溯推理优化步骤级Q值估计。此外，HCAPO的多尺度优势机制能有效补充关键决策状态下的不精确价值基线。在WebShop、ALFWorld等三大挑战性基准测试中，HCAPO均持续超越最先进的强化学习方法。值得注意的是，基于Qwen2.5-7B-Instruct模型，HCAPO在WebShop上的成功率较GRPO提升7.7%，在ALFWorld上提升13.8%。实验结果表明，HCAPO能显著提升探索效率，促进决策路径的简洁性，并确保复杂长周期任务中的可扩展性。

梅萨：多模态医疗智能体系统
Meissa: Multi-modal Medical Agentic Intelligence

Mar 9

ByYixiong Chen, Xinyi Bai, Yue Pan, Zongwei Zhou, Alan Yuille

多模态大语言模型（MM-LLMs）在医学影像理解与临床推理领域已展现出强大性能。近期出现的医疗智能体系统通过工具调用与多智能体协作机制进一步扩展了其能力，实现了复杂医疗决策功能。然而这些系统几乎完全依赖前沿模型（如GPT），其基于API的部署方式存在高成本、高延迟及隐私风险等问题，难以满足临床本地化部署需求。本文提出Meissa——一个轻量级的40亿参数医疗多模态大语言模型，可将智能体能力离线化。该模型并非简单模仿静态答案，而是通过蒸馏前沿模型的结构化轨迹数据，同步学习何时启动外部交互（策略选择）以及如何执行多步交互（策略执行）。具体贡献包括：（1）统一轨迹建模：将推理与行动轨迹纳入"状态-行动-观测"形式化框架，使单一模型能泛化至异构医疗环境；（2）三级分层监督：根据模型自身错误触发从直接推理到工具增强、再到多智能体交互的渐进式升级，显式学习难度感知的策略选择机制；（3）前瞻-回溯监督：通过将探索性前向轨迹与后见之明理性化的执行轨迹配对，稳定习得有效交互策略。基于4万条精选轨迹训练后，Meissa在涵盖放射学、病理学及临床推理的13个医疗基准测试中，于16个评估场景中的10项表现达到或超越专有前沿智能体。相比Gemini-3等典型前沿模型，Meissa仅需1/25参数量即可实现完全离线运行，端到端延迟较API部署降低22倍。相关数据、模型及环境已发布于https://github.com/Schuture/Meissa。

漫画：能动速写喜剧生成
COMIC: Agentic Sketch Comedy Generation

Mar 11

BySusung Hong, Brian Curless, Ira Kemelmacher-Shlizerman, Steve Seitz

我们提出了一种全自动人工智能系统，能够制作类似《周六夜现场》等小品节目的短喜剧视频。该系统以角色设定为起点，采用基于真实制片厂职能构建的智能体群体架构，通过迭代竞争、评估与优化机制，确保创意产出的质量与多样性。本研究的核心创新在于引入大语言模型批评家——通过分析YouTube平台喜剧视频语料库，使其与真实观众偏好对齐，实现幽默效果的自动化评估。实验表明，该框架生成的视频质量接近专业制作水准，同时在视频生成领域展现出尖端性能。

UniCom：基于压缩连续语义表征的统一多模态建模
UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

Mar 11

ByYaqi Zhao, Wang Lin, Zijian Zhang, Miles Yang, Jingyuan Chen, Wentao Zhang, Zhao Zhong, Liefeng Bo

当前统一多模态模型通常依赖离散化视觉标记器来弥合模态差异。然而离散化过程不可避免地会丢弃细粒度语义信息，导致视觉理解任务性能欠佳。与之相对，直接对连续语义表征（如CLIP、SigLIP）进行建模会面临高维生成建模的重大挑战，导致收敛速度缓慢和训练不稳定性。为解决这一困境，我们提出UniCom框架——通过压缩连续表征实现多模态理解与生成的统一协同。实证研究表明，在重建与生成任务中，降低通道维度远比空间下采样更为有效。基于此，我们设计了基于注意力机制的语义压缩器，将稠密特征提炼为紧凑的统一表征。此外，我们验证了transfusion架构在收敛性与一致性方面优于基于查询的设计。实验表明，UniCom在统一模型中实现了最先进的生成性能。值得注意的是，通过保留丰富语义先验，该框架在图像编辑中展现出卓越的可控性，即使不依赖VAE也能保持图像一致性。

大型语言模型潜在空间中的因果概念图及其逐步推理应用
Causal Concept Graphs in LLM Latent Space for Stepwise Reasoning

Mar 11

ByMd Muntaqim Meherab, Noor Islam S. Mohammad, Faiza Feroz

稀疏自编码器能够定位语言模型中概念的存在位置，但无法揭示多步推理过程中概念的交互机制。我们提出因果概念图（CCG）：一种基于稀疏可解释潜在特征的有向无环图，其边捕获了概念间习得的因果依赖关系。我们将面向任务条件的稀疏自编码器用于概念发现，结合DAGMA风格的微分结构学习实现图结构恢复，并引入因果保真度评分（CFS）来评估图引导干预是否比随机干预产生更大的下游效应。在GPT-2 Medium模型上进行的ARC-Challenge、StrategyQA和LogiQA实验中，经过五个种子运行（n=15组配对实验），CCG获得CFS=5.654±0.625，显著优于ROME风格追踪法（3.382±0.233）、纯稀疏自编码器排序法（2.479±0.196）及随机基线（1.032±0.034），经Bonferroni校正后p值小于0.0001。习得的图结构具有稀疏性（边密度5-6%）、领域特异性，且在多个种子运行中保持稳定。

V2M-Zero：零配对时间对齐的视频配乐生成技术
V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

Mar 11

ByYan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. Bryan

现有文本到音乐模型因缺乏细粒度时间控制，难以生成与视频事件时序对齐的音乐。我们提出V2M-Zero——一种无需配对数据的视频到音乐生成方法，可输出与视频时间同步的音乐。该方法基于关键发现：时序同步需要匹配变化发生的时机与程度，而非变化内容本身。尽管音乐与视觉事件在语义上存在差异，但它们展现出可独立捕获的跨模态时序结构。我们通过预训练音乐/视频编码器计算模态内相似度，构建事件曲线来捕捉这种结构。通过独立测量各模态内的时间变化，这些曲线提供了跨模态的可比表征。由此实现简易训练策略：先在音乐事件曲线上微调文本到音乐模型，推理时直接替换为视频事件曲线，无需跨模态训练或配对数据。在OES-Pub、MovieGenBench-Music和AIST++数据集上的实验表明，V2M-Zero相比配对数据基线实现显著提升：音频质量提高5-21%，语义对齐度提升13-15%，时序同步性改善21-52%，舞蹈视频节拍对齐度提升28%。大规模众包主观听力测试也验证了类似结果。本研究证实：通过模态内特征而非跨模态配对监督实现时序对齐，能有效解决视频到音乐生成问题。成果详见https://genjib.github.io/v2m_zero/。

一键全深：单阶段深度补全的深度万有提示法
Any to Full: Prompting Depth Anything for Depth Completion in One Stage

Mar 5

ByZhiyuan Zhou, Ruofeng Liu, Taichi Liu, Weijian Zuo, Shanshan Wang, Zhiqing Hong, Desheng Zhang

精确稠密的深度估计对机器人感知至关重要，但商用传感器常因硬件限制产生稀疏或不完整的测量数据。现有RGBD融合深度补全方法联合学习依赖于训练RGB分布与特定深度模式的先验，这限制了领域泛化能力及对不同深度模式的鲁棒性。近期研究利用单目深度估计（MDE）模型引入领域通用几何先验，但当前依赖显式相对-绝对标度对齐的两阶段集成策略会导致额外计算并引发结构化失真。为此，我们提出Any2Full——一种单阶段、领域通用且模式无关的框架，将深度补全重构为预训练MDE模型的标度提示自适应方法。针对不同深度稀疏度与不规则空间分布，我们设计了尺度感知提示编码器，从稀疏输入中提取尺度线索并转化为统一尺度提示，在保持MDE模型几何先验的同时引导其生成全局尺度一致的预测。大量实验表明，Any2Full实现了卓越的鲁棒性与效率：其平均AbsREL指标较OMNI-DC提升32.2%，在相同MDE骨干网络下较PriorDA提速1.4倍，为通用深度补全建立了新范式。代码与模型已开源：https://github.com/zhiyuandaily/Any2Full。

代碼空間響應預言機：基於大型語言模型的可解釋多智能體策略生成
Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

Mar 10

ByDaniel Hennes, Zun Li, John Schultz, Marc Lanctot

近期多智能体强化学习领域的进展，特别是策略空间响应预言（PSRO）方法，已能在日益复杂的领域中计算近似博弈论均衡解。然而这些方法依赖深度强化学习预言机生成的"黑盒"神经网络策略，导致策略难以被解读、信任或调试。我们提出代码空间响应预言（CSRO）这一创新框架，通过用大型语言模型替代强化学习预言机来解决此问题。CSRO将最佳响应计算重构为代码生成任务，引导LLM直接生成人类可读的代码形式策略。该方法不仅能产生本质可解释的策略，还能利用LLM的预训练知识发现复杂的类人策略。我们探索了多种构建和增强基于LLM的预言机的方法：零样本提示、迭代优化以及AlphaEvolve——一个基于分布式LLM的进化系统。实验证明CSRO在保持与基线模型相当性能的同时，能生成多样化的可解释策略。本研究为多智能体学习提供了新视角，将焦点从优化不透明的策略参数转向合成可解释的算法行为。

EmboAlign：基于组合约束的视频生成对齐技术实现零样本操控
EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation

Mar 5

ByGehao Zhang, Zhenyang Ni, Payal Mohapatra, Han Liu, Ruohan Zhang, Qi Zhu

基於大規模網絡數據預訓練的視頻生成模型（VGMs）能夠生成時序連貫的推演視頻，捕捉豐富的物體動態，為零樣本機器人操作提供了有力基礎。然而，VGMs常產生物理層面不合理的推演結果，且通過幾何重定向將其像素空間運動轉換為機器人動作時，會進一步引入因深度估計與關鍵點追蹤不精確而產生的累積誤差。為解決這些難題，我們提出一種無需額外訓練數據的框架，在推理階段利用視覺語言模型（VLMs）生成的組合式約束來校準VGM輸出。核心思路在於：VLMs具備與VGMs互補的能力——即能通過結構化空間推理識別對操作執行成功與安全性至關重要的物理約束。給定語言指令後，該框架利用VLM自動提取一組捕捉任務特定需求的組合式約束，並將其應用於兩個階段：（1）約束引導的推演篩選：對批量VGM推演結果進行評分過濾，保留物理合理性最高的候選序列；（2）基於約束的軌跡優化：以選定推演作為初始化，在相同約束集下優化機器人軌跡以修正重定向誤差。我們在六項需要精準且約束敏感執行的真實機器人操作任務上進行評估，相較於最強基線方法，在無需任何任務特定訓練數據的情況下，整體成功率提升43.3%。

StyleVLA：面向自动驾驶的驾驶风格感知视觉语言动作模型
StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving

Mar 10

ByYuan Gao, Dengyuan Hua, Mattia Piccinini, Finn Rasmus Schäfer, Korbinian Moller, Lin Li, Johannes Betz

视觉语言模型（VLMs）成功搭建了视觉感知与语言推理之间的桥梁。在自动驾驶领域，这种协同作用催生了视觉语言行动模型，能够将高层次多模态理解转化为驾驶行为（通常表现为未来轨迹）。然而现有VLA模型主要生成通用的无碰撞轨迹，除避障外，适应多样化驾驶风格（如运动型、舒适型）对个性化驾驶至关重要。此外，许多方法将轨迹生成简单视为令牌预测，可能导致运动学上不可行的动作。为突破这些局限，我们提出StyleVLA——一个融合物理知识的VLA框架，用于生成多样化且符合物理规律的驾驶行为。我们设计了结合运动学一致性约束与连续回归头的混合损失函数以提升轨迹可行性。基于Qwen3-VL-4B构建的StyleVLA使用大规模指令数据集进行训练，该数据集包含1.2万个场景、7.6万个鸟瞰图样本及4.2万第一人称视角样本，并标注了五种驾驶风格的真值轨迹与自然语言指令。实验表明，我们的40亿参数StyleVLA显著优于专有模型（如Gemini-3-Pro）及前沿VLA模型。采用综合评估成功率、物理可行性与风格遵从度的驾驶评分体系，StyleVLA在BEV和FPV上分别获得0.55与0.51分，而Gemini-3-Pro仅为0.32与0.35分。这证明专业化、融合物理知识的轻量化模型能在特定领域任务中超越闭源模型。