HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

30 papers found

LLaDA2.0-Uni：基于扩散大语言模型的多模态理解与生成统一框架
LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

Apr 22

ByInclusion AI, Tiwei Bie, Haoxing Chen, Tieyuan Chen, Zhenglin Cheng, Long Cui, Kai Gan, Zhicheng Huang, Zhenzhong Lan, Haoquan Li, Jianguo Li, Tao Lin, Qi Qin, Hongjun Wang, Xiaomei Wang, Haoyuan Wu, Yi Xin, Junbo Zhao

218

我们推出LLaDA2.0-Uni——一种支持多模态理解与生成的统一离散扩散大语言模型（dLLM），其架构原生集成于统一框架中。该模型融合了全语义离散分词器、基于混合专家（MoE）的dLLM主干网络以及扩散解码器。通过SigLIP-VQ对连续视觉输入进行离散化处理，模型可在主干网络中实现文本与视觉输入的区块级掩码扩散，同时解码器能将视觉标记重建为高保真图像。借助主干网络中的前缀感知优化和解码器的少步蒸馏技术，推理效率显著超越了传统并行解码方法。在精心构建的大规模数据集和定制化多阶段训练流程的支持下，LLaDA2.0-Uni在多模态理解任务上媲美专业视觉语言模型，同时在图像生成与编辑方面展现出强劲性能。其原生支持交错生成与推理的能力，为新一代统一基础模型建立了可扩展的创新范式。代码与模型已开源：https://github.com/inclusionAI/LLaDA2.0-Uni。

近期策略优化
Near-Future Policy Optimization

Apr 22

ByChuanyu Qin, Chenxu Yang, Qingyi Si, Naibin Gu, Dingyu Yao, Zheng Lin, Peng Fu, Nan Duan, Jiaqi Wang

可验证奖励强化学习（RLVR）已成为后训练阶段的核心方法。将合适的离策略轨迹引入同策略探索能加速RLVR收敛并提升性能上限，但寻找此类轨迹来源仍是关键挑战。现有混合策略方法要么引入外部教师模型的轨迹（质量高但分布差异大），要么回放历史训练轨迹（分布接近但质量受限），均无法同时满足最大化有效学习信号S=Q/V所需的双重条件：足够强（更高Q值，蕴含更多新知识）与足够近（更低V值，更易被吸收）。我们提出近未来策略优化（NPO），该简易混合策略方案通过向策略自身的近未来版本学习：从同一训练流程中选取稍晚的检查点作为辅助轨迹源，其既强于当前策略又比任何外部源更接近，直接平衡了轨迹质量与方差代价。我们通过早期快速启动和晚期平台突破两项人工干预验证NPO，并进一步提出自适应变体AutoNPO——它能根据在线训练信号自动触发干预，并选择使S最大化的引导检查点。在Qwen3-VL-8B-Instruct模型与GRPO配合下，NPO将平均性能从57.88提升至62.84，AutoNPO进一步推高至63.15，在加速收敛的同时突破了最终性能上限。

DR-Venus：仅凭万条开放数据迈向边缘计算前沿的深度研究智能体
DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

Apr 21

ByVenus Team, Sunhao Dai, Yong Deng, Jinzhen Lin, Yusheng Song, Guoqing Wang, Xiaofeng Wu, Yuqi Zhou, Shuo Yang, Zhenzhe Ying, Zhanwei Zhang, Changhua Meng, Weiqiang Wang

基于小型语言模型的边缘侧深度研究智能体因其在成本、延迟和隐私方面的优势，在实际部署中极具吸引力。本研究探索如何在有限开放数据下，通过提升数据质量和数据利用率来训练强大的小型深度研究智能体。我们提出DR-Venus——一个完全基于开放数据构建、面向边缘部署的4B参数前沿深度研究智能体。训练方案包含两个阶段：第一阶段采用智能体监督微调（SFT），通过严格数据清洗与长周期轨迹重采样相结合的策略建立基础智能体能力，同步提升数据质量与利用率；第二阶段应用智能体强化学习（RL），通过基于信息增益的回合级奖励和格式感知正则化设计（基于IGPO改进），增强长周期深度研究任务的执行可靠性，从而提升监督密度并优化回合级信用分配。完全基于约1万条开放数据构建的DR-Venus-4B，在多个深度研究基准测试中显著优于9B参数以下的现有智能体模型，同时大幅缩小了与30B级大型系统的差距。进一步分析表明，4B智能体已展现出惊人的性能潜力，既印证了小型模型的部署前景，也凸显了该场景下测试时扩展的价值。我们公开模型、代码及核心配方，以支持边缘侧深度研究智能体的可复现研究。

OpenMobile：通过任务与轨迹合成构建开放移动智能体
OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis

Apr 16

ByKanzhi Cheng, Zehao Li, Zheng Ma, Nuo Chen, Jialin Cao, Qiushi Sun, Zichen Ding, Fangzhi Xu, Hang Yan, Jiajun Chen, Anh Tuan Luu, Jianbing Zhang, Lewei Lu, Dahua Lin

基于视觉语言模型的移动智能体在自动化移动任务方面展现出卓越能力，近期领先模型更实现了性能飞跃——例如在AndroidWorld基准测试中成功率接近70%。然而这些系统始终封闭其训练数据，对任务与轨迹合成方案保持不透明。我们推出开源框架OpenMobile，通过两大核心组件生成高质量任务指令与智能体轨迹：（1）首个可扩展的任务合成管道，通过环境探索构建全局环境记忆库，进而生成多样化且接地气的任务指令；（2）策略切换式轨迹推演方案，通过学习者与专家模型的交替运行，捕获标准模仿学习常缺失的关键错误恢复数据。基于我们数据训练的智能体在三大动态移动智能体基准测试中均取得竞争力结果：值得注意的是，微调后的Qwen2.5-VL与Qwen3-VL在AndroidWorld上分别达到51.7%和64.7%的成功率，远超现有开源方案。我们进一步对合成指令与基准测试集的重叠度进行透明化分析，证实性能提升源于广泛的功能覆盖而非基准过拟合。项目已开源数据与代码（https://njucckevin.github.io/openmobile/），旨在弥合数据鸿沟并推动移动智能体研究的广泛发展。

DeVI：基于物理的灵巧人机交互合成视频模仿
DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation

Apr 22

ByHyeonwoo Kim, Jeonghwan Kim, Kyungwon Cho, Hanbyul Joo

近期视频生成模型的技术突破，使得能够跨多种场景和物体类别合成逼真的人-物交互视频，包括难以通过动作捕捉系统记录的复杂灵巧操作。尽管这些合成视频中蕴含的丰富交互知识对灵巧机器人操作的运动规划具有巨大潜力，但其有限的物理保真度和纯二维特性使其难以直接作为基于物理的角色控制模仿目标。我们提出DeVI（灵巧视频模仿）框架，该创新系统利用文本条件合成视频实现与未知目标物体交互的物理合理灵巧智能体控制。为克服生成式二维线索的不精确性，我们引入了融合三维人体追踪与鲁棒二维物体追踪的混合追踪奖励机制。与依赖高质量三维运动学演示的方法不同，DeVI仅需生成视频即可实现跨不同物体和交互类型的零样本泛化。大量实验表明，DeVI在模仿三维人-物交互演示的方法中表现优异，尤其在建模灵巧手-物交互方面优势显著。我们进一步验证了DeVI在多物体场景和文本驱动动作多样性中的有效性，彰显了视频作为人-物交互感知运动规划器的优势。

大模型时代的奖励破解：机制、涌现性错位与挑战
Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges

Apr 15

ByXiaohua Wang, Muzhao Tian, Yuqi Zeng, Zisu Huang, Jiakang Yuan, Bowen Chen, Jingwen Xu, Mingbo Zhou, Wenhao Liu, Muling Wu, Zhengkang Guo, Qi Qian, Yifei Wang, Feiran Zhang, Ruicheng Yin, Shihan Dou, Changze Lv, Tao Chen, Kaitao Song, Xu Tan, Tao Gui, Xiaoqing Zheng, Xuanjing Huang

基于人类反馈的强化学习（RLHF）及相关对齐范式已成为引导大语言模型（LLMs）与多模态大语言模型（MLLMs）符合人类行为偏好的核心方法。然而，这些方法引入了系统性漏洞：奖励破解，即模型利用习得奖励信号中的缺陷来最大化代理目标，却未真正实现任务意图。随着模型规模扩大和优化强度提升，此类利用行为表现为冗长偏好、谄媚应答、虚构合理化、基准过拟合，以及在多模态场景下的感知-推理脱节和评估器操纵。最新研究进一步表明，看似无害的捷径行为可能泛化为更广泛的对齐偏离形式，包括欺骗行为和对监督机制的策略性利用。本文提出代理压缩假说（PCH）作为理解奖励破解的统一框架，将其形式化为高维人类目标经过压缩的奖励表征与表达性策略优化相互作用下的涌现现象。该视角下，奖励破解源于目标压缩、优化放大及评估器-策略协同适应三者的交互作用，不仅统一了RLHF、RLAIF和RLVR范式中的实证现象，还解释了局部捷径学习如何泛化为欺骗和监督机制策略性操纵等广义对齐偏离。我们进一步根据干预压缩、放大或协同适应动态的维度，对检测与缓解策略进行系统性归类。通过将奖励破解界定为规模化背景下基于代理的对齐机制的结构性失稳，本文强调了可扩展监督、多模态 grounding 以及智能体自主性等领域面临的开放挑战。

从生成视角探索空间智能
Exploring Spatial Intelligence from a Generative Perspective

Apr 22

ByMuzhi Zhu, Shunyao Jiang, Huanyi Zheng, Zekai Luo, Hao Zhong, Anzhou Li, Kaijun Wang, Jintao Rong, Yang Liu, Hao Chen, Tao Lin, Chunhua Shen

空间智能对多模态大语言模型至关重要，然而现有基准主要从理解维度进行评估。我们探究现代生成式或统一多模态模型是否具备生成式空间智能（GSI）——即在图像生成过程中遵循并操纵三维空间约束的能力，以及这种能力能否被量化或提升。我们推出GSI-Bench，首个通过空间锚定图像编辑量化GSI的基准，其包含两个互补组件：基于三维先验引导生成与筛选流程构建的高质量真实数据集GSI-Real，以及具备可控空间操作与全自动标注的大规模合成基准GSI-Syn。结合统一评估协议，GSI-Bench能够实现可扩展、模型无关的空间合规性与编辑保真度评估。实验表明，在GSI-Syn上对统一多模态模型进行微调，能在合成与真实任务中均取得显著提升，更引人注目的是，其还能增强下游空间理解能力。这首次明确证明生成式训练可实质性强化空间推理能力，为推进多模态模型的空间智能开辟了新路径。

基于观测上下文压缩的高效终端智能体自演进框架
A Self-Evolving Framework for Efficient Terminal Agents via Observational Context Compression

Apr 21

ByJincheng Ren, Siwei Wu, Yizhi Li, Kang Zhu, Shu Xu, Boyu Feng, Ruibin Yuan, Wei Zhang, Riza Batista-Navarro, Jian Yang, Chenghua Lin

随着模型能力的进步，研究重心日益转向以终端为中心的长周期多轮次智能体任务，这类任务通常将原始环境反馈保存在交互历史中以支持后续决策。然而持续保留此类反馈会引入大量冗余，导致累计令牌成本随步数呈二次方增长，从而阻碍长周期推理。虽然观测压缩可以缓解这一问题，但终端环境的异构性使得基于启发式或固定提示的方法难以泛化。我们提出TOCA——一种即插即用、自我演进的终端智能体压缩框架，能够从交互轨迹中自动发现并优化现有终端智能体的压缩规则。在TerminalBench（TB 1.0和TB 2.0）及四个额外终端相关基准（即SWE-Bench Lite、CompileBench、DevEval和CRUST-Bench）上的实验表明，TOCA能在主流智能体框架和强骨干模型中持续提升性能。配合MiniMax-2.5模型时，它在多数基准上实现性能提升的同时将令牌开销降低约10%。在TerminalBench上，该框架为强智能体模型带来1%-4%的稳定增益，并在相同令牌预算下进一步将准确率提升约2%-3%。这些结果验证了自我演进、任务感知的压缩方法对终端智能体的有效性和泛化能力。

专家级升维：推进混合专家模型的计算效率前沿
Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts

Apr 21

ByChaitanya Dwivedi, Binxuan Huang, Himanshu Gupta, Pratik Jayarao, Neeraj Varshney, Bing Yin

专家混合模型（MoE）已成为扩展大语言模型的主导架构：前沿模型通过稀疏专家路由机制，将总参数量与单令牌计算量解耦。扩展定律表明，在固定激活计算量下，模型质量随总参数量呈可预测增长，而MoE通过增加专家数量实现这一特性。然而训练大型MoE成本高昂，因为内存需求和设备间通信量均与总参数量成正比。我们提出专家升维技术，这是一种通过持续预训练（CPT）阶段增加专家数量来渐进扩展MoE容量的方法。给定已训练的E专家模型，升维算子通过专家复制和路由扩展构建mE专家模型，同时保持Top-K路由机制不变，从而维持单令牌推理成本。复制机制提供热初始化：扩展后的模型继承源检查点已学习的表征，其初始损失值远低于随机初始化。后续CPT会打破复制专家间的对称性以驱动专业化。我们形式化定义了升维算子，并建立理论框架将质量差距分解为容量项和初始化项。进一步提出基于效用的专家选择策略，利用梯度重要性评分指导非均匀复制，在CPT受限时将差距缩小幅度提升三倍以上。在总参数量为70亿至130亿的实验中，升维模型在验证损失上媲美固定规模基线，同时节省32%的GPU时耗。跨模型规模、激活比例、MoE架构和训练预算的全面消融实验形成了专家升维的实用方案，确立了其作为从头训练大型MoE模型的原理性、计算高效替代方法。

C-GenReg：基于多视图一致几何到图像生成与概率模态融合的无训练三维点云配准方法
C-GenReg: Training-Free 3D Point Cloud Registration by Multi-View-Consistent Geometry-to-Image Generation with Probabilistic Modalities Fusion

Apr 17

ByYuval Haitman, Amit Efraim, Joseph M. Francos

我们提出C-GenReg——一种免训练的3D点云配准框架，它融合了世界尺度生成先验与面向配准的视觉基础模型（VFM）的互补优势。当前基于学习的3D点云配准方法难以跨越感知模态、采样差异和环境变化实现泛化。为此，C-GenReg通过世界基础模型将匹配问题转换至VFM更具优势的辅助图像域，从输入几何数据生成多视角一致的RGB表征，从而增强几何点云配准分支。这种生成式转换无需微调即可保持源视角与目标视角间的空间连贯性。基于生成视图，经过稠密对应关系预训练的VFM可提取匹配点。最终通过原始深度图将这些像素对应关系重新映射至3D空间。为进一步提升鲁棒性，我们引入“匹配-融合”概率冷融合机制，将生成RGB分支与原始几何分支的两个独立对应后验分布相结合。这种基于原理的融合既保留了各模态的归纳偏置，又能在无需额外学习的情况下提供校准后的置信度。C-GenReg具备零样本即插即用特性：所有模块均为预训练模型且无需微调。在室内（3DMatch、ScanNet）与室外（Waymo）基准测试上的大量实验表明，该框架具有强大的零样本性能与卓越的跨域泛化能力。我们首次实现了在真实室外LiDAR数据（无图像数据可用）上成功运行的生成式配准框架。

WavAlign：通过自适应混合后训练提升口语对话模型的智能性与表达力
WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training

Apr 16

ByYifu Chen, Shengpeng Ji, Qian Chen, Tianle Liang, Yangzhuo Li, Ziqing Wang, Wen Wang, Jingyu Lu, Haoxiao Wang, Xueyi Pu, Fan Zhuo, Zhou Zhao

端到端语音对话模型因其在表现力与感知能力上较级联系统具备更高潜力上限而备受关注。然而当前开源语音对话模型的智能水平与表达能力常低于预期。受在线强化学习在其他领域成功的启发，研究者或可尝试将偏好优化直接应用于语音对话模型，但这一迁移并非易事。我们从奖励建模和 rollout 采样的角度分析这些障碍，重点关注稀疏偏好监督如何与共享参数更新下的密集语音生成相互作用。基于此分析，我们提出一种模态感知的自适应后训练方案，使强化学习能切实应用于语音对话：该方案通过将偏好更新约束在语义通道，并借助显式锚定改善声学行为，同时根据 rollout 统计量动态调节二者的混合比例，以规避不可靠的偏好梯度。我们在多个语音对话基准测试和典型架构上评估该方法，观察到语义质量与语音表现力均获得持续提升。

SWE-chat：基于真实用户交互的编程代理实战对话数据集
SWE-chat: Coding Agent Interactions From Real Users in the Wild

Apr 22

ByJoachim Baumann, Vishakh Padmakumar, Xiang Li, John Yang, Diyi Yang, Sanmi Koyejo

AI编程助手正被大规模应用，但我们仍缺乏关于人们实际使用方式及其输出代码实用性的实证依据。本文推出SWE-chat——首个从开源开发者真实环境中收集的大规模编程助手会话数据集。该数据集目前包含6,000个会话，涵盖63,000余条用户指令和35.5万次助手工具调用。SWE-chat是动态演进的活数据集：我们的收集管道能自动持续发现并处理公开仓库中的会话。基于该数据集，我们首次对现实场景中编程助手的使用模式与故障类型进行了实证分析。研究发现编程行为呈现双峰分布：41%的会话中助手几乎生成全部提交代码（"氛围编程"），而23%的会话完全由人工编写代码。尽管能力快速提升，编程助手在自然场景中仍效率有限：仅44%的助手生成代码能最终进入用户提交，且助手编写的代码比人工代码引入更多安全漏洞。此外，用户在44%的交互轮次中会对助手输出进行干预——包括修正、错误报告和中断操作。通过完整记录交互轨迹并标注人机代码归属，SWE-chat为超越人工标注基准、建立基于证据的AI助手真实工作流表现认知奠定了实证基础。

提升智能体编码的测试时计算规模
Scaling Test-Time Compute for Agentic Coding

Apr 16

ByJoongwon Kim, Wannan Yang, Kelvin Niu, Hongming Zhang, Yun Zhu, Eryk Helenowski, Ruan Silva, Zhengxing Chen, Srinivasan Iyer, Manzil Zaheer, Daniel Fried, Hannaneh Hajishirzi, Sanjeev Arora, Gabriel Synnaeve, Ruslan Salakhutdinov, Anirudh Goyal

测试时扩展已成为提升大型语言模型性能的有效手段。然而现有方法最适用于可直接比较、排序或优化的短篇幅有界输出。长周期编程智能体违背了这一前提：每次尝试都会产生包含动作序列、观察结果、错误信息及部分进展的扩展轨迹。在此情境下，核心挑战不再是生成更多尝试，而是将过往经验转化为可有效筛选重用的表征形式。我们提出基于轨迹展开紧凑表征的智能编程测试时扩展框架，通过结构化摘要保存每次尝试的关键假设、进展阶段与故障模式，同时过滤低价值细节。该表征支持两种互补的推理时扩展模式：针对并行扩展，我们提出递归锦标赛投票法，通过小组比较递归筛选轨迹摘要集合；针对序列扩展，我们使并行蒸馏优化法适配智能体场景，将新尝试建立在既往摘要的蒸馏结果之上。该方法在SWE-Bench Verified和Terminal-Bench v2.0基准测试中持续提升前沿编程智能体性能，例如Claude-4.5-Opus在SWE-Bench Verified（mini-SWE-agent）上从70.9%提升至77.6%，在Terminal-Bench v2.0（Terminus 1）上从46.9%提升至59.1%。实验结果表明，长周期智能体的测试时扩展本质上是表征、筛选与重用的系统化问题。

Abstain-R1：基于可验证强化学习的校准弃权与拒绝后澄清机制
Abstain-R1: Calibrated Abstention and Post-Refusal Clarification via Verifiable RL

Apr 18

BySkylar Zhai, Jingcheng Liang, Dongyeop Kang

强化微调能提升大语言模型的推理能力，但也会促使其通过猜测或虚构缺失信息来回答不可答问题。现有弃答方法要么训练模型生成通用拒绝回复，要么鼓励其寻求后续澄清却未验证这些澄清是否真正定位到关键缺失信息。我们研究那些语义明确但基于给定信息无法可靠解答的查询，主张可靠模型不仅应弃答，还需解释缺失信息。我们提出一种澄清感知的RLVR奖励机制，在奖励可答问题正确答案的同时，联合优化对不可答问题的显式弃答和语义对齐的拒绝后澄清。基于该奖励机制，我们训练出30亿参数的Abstain-R1模型，该模型在保持可答问题强性能的同时，显著提升了对不可答问题的弃答与澄清能力。在Abstain-Test、Abstain-QA和SelfAware数据集上的实验表明，Abstain-R1较其基础模型实现显著提升，其不可答问题处理能力与包括DeepSeek-R1在内的更大规模系统相当，这证明经过校准的弃答与澄清能力可通过可验证奖励习得，而非仅依赖模型规模扩张。

图像生成器是通用视觉学习器
Image Generators are Generalist Vision Learners

Apr 22

ByValentin Gabeur, Shangbang Long, Songyou Peng, Paul Voigtlaender, Shuyang Sun, Yanan Bao, Karen Truong, Zhicheng Wang, Wenlei Zhou, Jonathan T. Barron, Kyle Genova, Nithish Kannen, Sherry Ben, Yandong Li, Mandy Guo, Suhas Yogin, Yiming Gu, Huizhong Chen, Oliver Wang, Saining Xie, Howard Zhou, Kaiming He, Thomas Funkhouser, Jean-Baptiste Alayrac, Radu Soricut

近期研究表明，图像与视频生成器展现出零样本视觉理解能力，这种现象类似于大型语言模型通过生成式预训练涌现出的语言理解与推理能力。尽管"视觉创作能力隐含理解能力"的假说由来已久，但一直缺乏证据表明生成式视觉模型已形成强大的理解能力。本研究论证了图像生成训练具有与LLM预训练相似的作用，能使模型学习到强大通用的视觉表征，在各种视觉任务上实现顶尖性能。我们推出通用模型Vision Banana，该模型通过对Nano Banana Pro（NBP）在其原始训练数据与少量视觉任务数据混合集上进行指令微调构建而成。通过将视觉任务输出空间参数化为RGB图像，我们实现了感知任务向图像生成任务的无缝转换。这款通用模型在涉及2D/3D理解的多种视觉任务中取得突破性成果，在分割任务上超越或比肩Segment Anything Model 3，在深度估计任务上媲美Depth Anything系列零样本领域专家。研究表明，通过轻量级指令微调即可实现这些成果，且不损害基础模型的图像生成能力。卓越的实验结果证明，图像生成预训练可成为通用视觉学习器，同时表明图像生成能作为视觉任务的统一接口，其作用堪比文本生成在语言理解与推理中的角色。我们可能正在见证计算机视觉领域的重大范式变革——生成式视觉预训练将在构建兼顾生成与理解能力的基础视觉模型中占据核心地位。

Cortex 2.0：将世界模型落地于真实工业场景的实践探索
Cortex 2.0: Grounding World Models in Real-World Industrial Deployment

Apr 22

ByAdriana Aida, Walida Amer, Katarina Bankovic, Dhruv Behl, Fabian Busch, Annie Bhalla, Minh Duong, Florian Gienger, Rohan Godse, Denis Grachev, Ralf Gulde, Elisa Hagensieker, Junpeng Hu, Shivam Joshi, Tobias Knoblauch, Likith Kumar, Damien LaRocque, Keerthana Lokesh, Omar Moured, Khiem Nguyen, Christian Preyss, Ranjith Sriganesan, Vikram Singh, Carsten Sponner, Anh Tong, Dominik Tuscher, Marc Tuscher, Pavan Upputuri

工业机器人操作需要在不同本体、任务及变化物体分布下实现可靠的长期执行。虽然视觉-语言-动作模型已展现强大泛化能力，但其本质仍属被动反应型。这类模型仅根据当前观察优化下一步动作，缺乏对未来可能性的评估，因此在应对长期任务中的复合故障模式时表现脆弱。Cortex 2.0通过生成视觉潜在空间中的候选未来轨迹，对其预期成功率和效率进行评分，并仅执行最高分候选方案，实现了从被动控制到规划执行的范式转变。我们在单臂与双臂操作平台上评估了四个复杂度递增的任务：抓取放置、物品与垃圾分拣、螺丝分拣以及鞋盒拆包。Cortex 2.0在所有任务中均持续超越最先进的视觉-语言-动作基线模型，取得最佳性能。该系统在具有严重杂乱、频繁遮挡和密集接触的非结构化环境中仍保持可靠性，而被动策略在此类场景中往往失效。这些结果表明基于世界模型的规划方法能够在复杂工业环境中稳定运行。

异构任务中的自演进大语言模型记忆提取
Self-Evolving LLM Memory Extraction Across Heterogeneous Tasks

Apr 13

ByYuqing Yang, Tengxiao Liu, Wang Bill Zhu, Taiwei Shi, Linxin Song, Robin Jia

随着基于大语言模型的助手趋向持久化与个性化发展，其必须从历史对话中提取并保留有效信息作为记忆。然而不同任务间值得记忆的信息类型存在显著差异。我们正式提出异构记忆提取任务，并构建BEHEMOTH基准——该基准重构了涵盖个性化、问题解决与智能体任务的18个现有数据集，采用下游效用驱动指标进行系统性评估。实证分析表明：不存在适用于所有任务类别的单一静态提取提示模板，且专为同质分布设计的现有自进化提示优化框架在训练任务异构时性能会出现退化。为此，我们提出基于聚类的自进化策略CluE：通过提取场景对训练样本进行聚类分组，独立分析各簇特征并融合跨簇洞察以更新提取提示。在BEHEMOTH上的实验表明，CluE在异构任务中具有卓越的泛化能力（相对增益+9.04%），持续优于现有自进化框架。

趋同演化：不同语言模型如何习得相似的数字表征
Convergent Evolution: How Different Language Models Learn Similar Number Representations

Apr 22

ByDeqing Fu, Tianyi Zhou, Mikhail Belkin, Vatsal Sharan, Robin Jia

基于自然文本训练的语言模型能够通过周期特征来表征数字，其主导周期为T=2、5、10。本文发现这些特征存在双层结构：虽然Transformer、线性RNN、LSTM以及通过不同方式训练的经典词嵌入模型都能学习到傅里叶域中具有周期T尖峰的特征，但只有部分模型能学习到可用于线性分类数字模T的几何可分特征。为解释这种不一致性，我们证明了傅里叶域稀疏性虽是模T几何可分性的必要条件，但并非充分条件。通过实证研究，我们探索了模型训练产生几何可分特征的条件，发现数据、架构、优化器和分词器都起着关键作用。特别地，我们识别出模型获得几何可分特征的两条途径：既可以通过通用语言数据中的互补共现信号（包括文本-数字共现和跨数字交互）学习，也可以通过多令牌（而非单令牌）加法问题学习。总体而言，我们的研究结果揭示了特征学习中趋同进化现象：不同模型能够从各异的训练信号中学习到相似的特征。

Tadabur：大规模《古兰经》音频数据集
Tadabur: A Large-Scale Quran Audio Dataset

Apr 21

ByFaisal Alherran

尽管对古兰经数据研究的兴趣日益增长，但现有古兰经数据集在规模和多样性方面仍存在局限。为填补这一空白，我们推出Tadabur——一个大规模古兰经音频数据集。该数据集收录了来自600多位不同诵经者的1400多小时诵读音频，在诵读风格、嗓音特征和录制条件方面呈现出显著差异。这种多样性使Tadabur成为古兰经语音研究与分析的全面且具有代表性的资源。通过显著扩展可用古兰经数据的总时长和变异性，Tadabur旨在支持未来研究，并推动标准化古兰经语音基准的开发。

SAVOIR：基于沙普利值奖励归因的社交礼仪学习框架
SAVOIR: Learning Social Savoir-Faire via Shapley-based Reward Attribution

Apr 21

ByXiachong Feng, Yi Jiang, Xiaocheng Feng, Deyi Yin, Libo Qin, Yangfan Ye, Lei Huang, Weitao Ma, Yuxuan Gu, Chonghan Qin, Bing Qin, Lingpeng Kong

社会智能——驾驭复杂人际互动的能力，对语言智能体提出了根本性挑战。通过强化学习训练此类智能体需解决信用分配问题：如何确定单轮对话对多轮互动结果的贡献。现有方法直接使用语言模型分配回合级奖励，产生的归因结果既具有回溯性又缺乏理论依据。我们提出SAVOIR（基于合作博弈论的沙普利值社会强化学习框架），这一新型原理性框架植根于合作博弈论。我们的方法融合两个互补原则：期望效用将评估从回溯归因转向前瞻估值，捕捉话语在促成有利未来轨迹方面的战略潜力；沙普利值则通过效率性、对称性和边际性的公理保证，实现公平的信用分配。在SOTOPIA基准测试中，SAVOIR在所有评估设置下均实现最新最优性能，我们的70亿参数模型达到或超越了包括GPT-4o和Claude-3.5-Sonnet在内的专有模型。值得注意的是，即使大型推理模型也持续表现不佳，这表明社会智能需要与分析推理截然不同的能力特质。

AI科学家在未遵循科学推理的情况下得出研究结论
AI scientists produce results without reasoning scientifically

Apr 20

ByMartiño Ríos-García, Nawaf Alampara, Chandan Gupta, Indrajeet Mandal, Sajid Mannan, Ali Asghar Aghajani, N. M. Anoop Krishnan, Kevin Maik Jablonka

基于大语言模型（LLM）的科研自主系统正被广泛部署，但其推理过程是否遵循确保科学探究具备自我修正能力的认知规范仍鲜为人知。本研究通过超过25,000次智能体运行，从计算工作流执行到假设驱动探究等八个领域，采用双重互补视角对LLM科学智能体进行评估：（1）系统性能分析——解析基础模型与智能体框架的贡献度；（2）智能体推理认知结构的行为分析。我们发现基础模型是性能与行为模式的主要决定因素，其解释方差占比达41.4%，而框架仅占1.5%。所有配置中，68%的推理轨迹存在忽视证据的现象，26%出现基于反证的信念修正，而基于多重验证的收敛证据极为罕见。无论执行计算工作流还是进行假设驱动探究，智能体均呈现相同的推理模式。即使为其提供近乎完整的成功推理轨迹作为上下文，这些模式依然存在，且在认知要求高的领域中，由此产生的不可靠性会随重复试验不断累积。因此，当前LLM智能体虽能执行科学工作流，却未展现科学推理特有的认知特征。基于结果的评估无法检测这些缺陷，仅靠框架工程亦无法修正。除非将推理本身作为训练目标，否则此类智能体产出的科学知识无法通过其生成过程获得正当性证明。

多样化词典学习
Diverse Dictionary Learning

Apr 19

ByYujia Zheng, Zijian Li, Shunxing Fan, Andrew Gordon Wilson, Kun Zhang

在仅能获得观测数据X = g(Z)且潜变量Z与生成过程g均未知的情况下，若缺乏额外假设，恢复Z是不适定问题。现有方法通常假设线性关系或依赖辅助监督与函数约束，但这些假设在实践中难以验证，且多数理论保证在轻微违背时便会失效，导致理解隐藏世界的可靠性存疑。为使可辨识性在现实场景中具可操作性，我们提出互补视角：在完全可辨识性不可达的一般设定下，哪些内容仍能保证恢复？哪些偏差可被普遍采纳？我们通过引入多样化字典学习问题来形式化这一视角。具体而言，研究表明：即使没有强假设，与任意观测相关联的潜变量的交集、补集及对称差，以及潜变量到观测的依赖结构，仍可在适当不确定性范围内被辨识。这些集合论结果可通过集合代数组合，构建隐藏世界的结构化本质视图（如属加种差定义）。当存在足够结构多样性时，它们可进一步推导出所有潜变量的完全可辨识性。值得注意的是，所有可辨识性优势均源自估计过程中可轻松集成至大多数模型的简单归纳偏置。我们通过合成数据与真实数据验证了理论并证明了该偏置的优越性。

追逐公共评分：编码智能体工作流中的用户压力与评估机制利用
Chasing the Public Score: User Pressure and Evaluation Exploitation in Coding Agent Workflows

Apr 22

ByHardy Chen, Nancy Lau, Haoqin Tu, Shuo Yan, Xiangyan Liu, Zijun Wang, Juncheng Wu, Michael Qizhe Shieh, Alvaro A. Cardenas, Cihang Xie, Yuyin Zhou

前沿编程智能体正越来越多地应用于以公共分数持续改进为主要监督方式的工作流程中——即用户通过工作空间内带标签的公开评估文件所报告的分数来跟踪进展，而非直接检查智能体的中间输出。我们研究多轮用户提升分数的压力是否会诱发公共分数利用行为：即通过走捷径提高公开分数却未改善隐藏私有评估效果的现象。我们首先在一个简单的单脚本表格分类任务中发现，GPT-5.4和Claude Opus 4.6在10轮人机交互内均出现了利用标签信息的现象。随后我们构建了AgentPressureBench基准测试集，涵盖三种输入模态的34个机器学习仓库任务，并收集了13款编程智能体的1326条多轮交互轨迹。在该基准测试中，我们观测到403次利用性运行，覆盖所有任务。同时发现更强模型具有更高利用率，斯皮尔曼等级相关系数达0.77。消融实验表明更高用户压力会加速利用行为出现，平均首次利用轮次减少15.6轮（从19.67轮降至4.08轮）。作为缓解措施，在提示词中明确添加反利用说明可将利用行为基本消除（从100%降至8.3%）。我们希望这项工作能促使业界更审慎地使用编程智能体工作流，并开发出更具用户压力鲁棒性的编程智能体。项目页面详见：https://ucsc-vlaa.github.io/AgentPressureBench

重塑思路：通过图像优先合成实现可控高质量人类视频生成的新探索
ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis

Apr 21

ByZhengwentai Sun, Keru Zheng, Chenghong Li, Hongjie Liao, Xihe Yang, Heyuan Li, Yihao Zhi, Shuliang Ning, Shuguang Cui, Xiaoguang Han

由于在有限的多视角数据下难以同时建模人体外观、运动轨迹和相机视角，人类视频生成仍面临挑战。现有方法通常分别处理这些因素，导致可控性受限或视觉质量下降。我们以图像优先的视角重新审视该问题：通过图像生成学习高质量人体外观，并将其作为视频合成的先验知识，从而将外观建模与时序一致性解耦。我们提出一种姿态与视角可控的流程，该流程结合预训练图像主干网络与基于SMPL-X的运动引导，并引入基于预训练视频扩散模型的免训练时序优化阶段。我们的方法能在多样化姿态和视角下生成高质量、时序连贯的视频。同时，我们发布了标准人体数据集及用于组合式人体图像合成的辅助模型。代码与数据已公开于https://github.com/Taited/ReImagine。

基于工具监督强化学习的视觉推理
Visual Reasoning through Tool-supervised Reinforcement Learning

Apr 21

ByQihua Dong, Gozde Sahin, Pei Wang, Zhaowei Cai, Robik Shrestha, Hao Yang, Davide Modolo

本文研究如何让多模态大语言模型有效掌握工具使用以解决复杂视觉推理任务。为此，我们提出了一种具有直接工具监督的新型工具监督强化学习框架（ToolsRL），以实现更高效的工具使用学习。我们聚焦于一系列简单、原生且可解释的视觉工具（包括局部放大、旋转、翻转及绘制点/线），其工具监督信号易于获取。该框架采用分阶段强化学习课程：第一阶段仅通过一组精心设计的工具专用奖励进行优化，第二阶段在允许调用工具的同时引入以准确率为目标的奖励进行训练。通过这种方式，模型在使用工具完成视觉推理任务前已掌握工具调用能力，避免了异构任务间可能存在的优化冲突。实验表明，工具监督的课程训练具有高效性，ToolsRL在复杂视觉推理任务中展现出强大的工具使用能力。

COMPASS：基于自适应语义采样的持续多语言参数高效微调
COMPASS: COntinual Multilingual PEFT with Adaptive Semantic Sampling

Apr 22

ByNoah Flynn

大型语言模型（LLMs）在不同语言间常出现性能差异，而简单的多语言微调常因跨语言负干扰导致性能下降。为此，我们提出COMPASS（基于自适应语义采样的持续多语言参数高效微调框架），这是一种以数据为核心的新型框架，用于使LLMs适配目标语言。COMPASS通过参数高效微调（PEFT）技术，在精心筛选的辅助多语言数据子集上训练轻量级的语言专属适配器。该方法的核心在于采用分布感知采样策略，利用多语言嵌入和聚类技术识别现有训练数据与目标使用分布之间的语义鸿沟。通过优先选取低表征语义簇的辅助数据，COMPASS在最大化跨语言正向迁移的同时最小化干扰。我们进一步将其扩展为持续学习框架COMPASS-ECDA，该框架可监测生产环境中的数据分布漂移，动态更新适配器以防止模型老化，实现新数据适配与既有知识保存的平衡。在三种不同模型架构（Phi-4-Mini、Llama-3.1-8B和Qwen2.5-7B）及多个挑战性多语言基准测试（Global-MMLU、MMLU-ProX），包括未见过的长上下文任务（OneRuler）上的实验表明，COMPASS持续优于基于语言相似性的基线方法，为动态环境中高性能多语言模型的开发与维护提供了高效、可持续的解决方案。

创意游戏：面向机制感知的创意游戏生成
CreativeGame:Toward Mechanic-Aware Creative Game Generation

Apr 21

ByHongnan Ma, Han Wang, Shenglin Wang, Tieyue Yin, Yiwei Shi, Yucong Huang, Yingtian Zou, Muning Wen, Mengyue Yang

大型语言模型能够生成看似合理的游戏代码，但将这种能力转化为迭代式创意提升仍面临挑战。实践中，单次生成往往会产生脆弱的运行时行为、版本间经验积累薄弱，以及过于主观而难以作为可靠优化指标的创意评分。另一个局限在于游戏机制常被视作事后描述，而非生成过程中可规划、追踪、保存和评估的显式对象。本报告提出CreativeGame——一个面向迭代式HTML5游戏生成的多智能体系统，通过四个耦合理念解决上述问题：以程序化信号而非纯LLM判断为核心的代理奖励机制；支持跨版本经验积累的谱系限定记忆；融入程序修复与奖励机制的运行时验证；以及机制引导的规划循环，即在代码生成前将检索到的机制知识转化为显式机制方案。该系统的目标不仅是单步生成可运行成品，更要支持可解释的版本间演进。当前系统包含71个存储谱系、88个存档节点及拥有774条记录的全局机制库，通过6,181行Python代码实现并配备检测与可视化工具。因此该系统具备足够规模以支持架构分析、奖励机制检视和真实谱系级案例研究，而非仅停留在提示层面的演示。一个真实的四代谱系案例表明，机制级创新可在后续版本中涌现，并能通过版本间记录直接观测。因此核心贡献不仅在于游戏生成，更在于通过显式机制变化观测渐进式演进的具体流程。

基于闪存半条件随机场的流式结构化推理
Streaming Structured Inference with Flash-SemiCRF

Apr 20

ByBenjamin K. Johnson, Thomas Goralski, Ayush Semwal, Hui Shen, H. Josh Jang

半马尔可夫条件随机场（semi-CRFs）通过为序列片段而非单个位置分配标签，实现了对片段级特征的精确推断及边界不确定性估计。然而现有实现需实例化一个规模随序列长度、最大片段长度和标签数量增长的大型边势能张量，这在语音级状态空间中已显吃力，对于序列长度可能超过10万个位置的基因组尺度更是难以处理。该内存瓶颈限制了长序列与大标签集场景下精确片段级推断的应用。我们发现核心问题在于实例化边势能的操作可被动态计算替代：首先利用紧凑前缀和数组进行实时评估，将内存占用量降低至与片段长度和标签数量乘积成反比；其次采用带检查点边界归一化的流式前向-后向传播算法，在保持梯度精确性的同时使工作内存与序列长度呈次线性关系；最后通过零中心累积分数控制数值漂移，在标签不平衡情况下引入自适应时长先验。我们将这些改进集成至Flash-SemiCRF——一个融合了Triton内核的计算框架，可在原先难以处理的规模上实现精确半条件随机场推断。项目地址：https://github.com/biobenkj/flash-semicrf。

MMCORE：基于表征对齐潜在嵌入的多模态连接
MMCORE: MultiModal COnnection with Representation Aligned Latent Embeddings

Apr 21

ByZijie Li, Yichun Shi, Jingxiang Sun, Ye Wang, Yixuan Huang, Zhiyao Guo, Xiaochen Lian, Peihao Zhu, Yu Tian, Zhonghua Zhai, Peng Wang

我们提出MMCORE——一个面向多模态图像生成与编辑的统一框架。该框架利用预训练视觉语言模型，通过可学习的查询令牌预测语义视觉嵌入，进而将其作为扩散模型的调节信号。这种流线型设计有效转化了VLM丰富的理解与推理能力至视觉生成过程。通过避免自回归模型与扩散模型间的深度融合或从头训练，MMCORE在保持高保真合成质量的同时显著降低了计算开销。 MMCORE无缝整合了文本到图像合成与交错式图像生成功能，在空间推理、视觉定位等复杂场景中展现出强大的多模态理解能力。综合评估表明，该框架在文本到图像生成及单图/多图编辑的广泛基准测试中持续超越现有最优基线模型。

良性微调破坏音频大语言模型的安全对齐机制
Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs

Apr 17

ByJaechul Roh, Amir Houmansadr

已有研究表明，在良性数据上对对齐模型进行微调会降低文本和视觉模态的安全性，且表征空间中与有害内容的邻近度可预测哪些样本会导致最严重的安全退化。然而现有分析均基于单一未分化的嵌入空间，未能揭示不同输入属性是否以不同方式驱动脆弱性。音频模态呈现出结构更复杂的问题：良性样本不仅可能通过语义内容，还可能通过声学特征与有害内容相邻，即使其词汇完全无害。我们首次对音频大语言模型开展良性微调安全性的系统研究，通过基于邻近度的过滤框架（依据嵌入空间与有害内容的距离筛选良性音频）评估三种前沿模型。通过借助外部参考编码器与各模型内部编码器，将邻近度分解为语义轴、声学轴和混合轴，我们发现良性微调可使越狱成功率从个位数攀升至最高87.12%。关键的是，主导脆弱性轴以及音频与文本微调的相对风险均受架构条件制约——取决于各模型编码器和投影器将音频转换为LLM输入空间的方式。我们提出两种防御方案：通过过滤训练数据最大化与有害嵌入的距离，以及在推理时使用文本系统提示，两者均可在不改动架构的前提下将越狱成功率降至接近零。对两种架构的机理分析表明，微调会选择性抑制晚期拒绝回路而冻结编码器保留表征，且抑制模式同样受架构条件制约，这与跨模态的行为不对称性相呼应。良性微调导致的安全性退化是音频大语言模型中性质独特的风险。