每日精选AI研究论文及翻译
同策略蒸馏(OPD)已成为大语言模型领域流行的训练范式。该范式选择较大模型作为教师,为每个采样轨迹提供密集的细粒度信号,这与依赖可验证奖励的强化学习(RLVR)形成对比——后者仅能从环境中的可验证结果获得稀疏信号。近期业界开始探索同策略自蒸馏(OPSD),即同一模型同时担任教师和学生角色,其中教师端可获得参考答案等特权信息以实现自我进化。本文论证仅从特权教师推导的学习信号会导致严重的信息泄露和长期训练不稳定。据此,我们明确了自蒸馏的最佳适用场景,提出RLSD(基于自蒸馏的RLVR)。具体而言,我们利用自蒸馏获取词元级策略差异以确定细粒度更新幅度,同时继续采用RLVR从环境反馈(如回答正确性)推导可靠的更新方向。这使得RLSD能同时融合RLVR和OPSD的优势,实现更高的收敛上限和更优的训练稳定性。
近期流式视频理解方法日益依赖复杂记忆机制来处理长视频流。我们通过一个简单发现对这一趋势提出挑战:仅向现成视觉语言模型输入最近N帧的滑动窗口基线方法,其表现已能媲美甚至超越已发布的流式模型。我们将此基线形式化为SimpleStream,并在OVO-Bench和StreamingBench基准测试中与13个主流离线和在线视频大语言模型基线进行对比。尽管结构简单,SimpleStream始终展现出强劲性能:仅使用最近4帧即可在OVO-Bench达到67.7%平均准确率,在StreamingBench达到80.59%。受控消融实验进一步表明,长上下文的价值取决于骨干网络而非随模型规模均匀增长,并揭示出稳定的感知-记忆权衡规律:增加历史上下文能提升回忆能力,但往往会削弱实时感知性能。这意味着,除非在相同测试协议下明确超越SimpleStream,否则更强的记忆、检索或压缩模块不应被视为技术进步的证明。因此我们主张,未来流式基准测试应将近期场景感知与长程记忆能力分开评估,以便更清晰地衡量由复杂度提升带来的性能改进。
扭曲标记而非像素,能否帮助多模态大语言模型(MLLM)理解场景在邻近视角下的样貌?尽管MLLM在视觉推理任务中表现优异,但它们对视角变化仍显脆弱——像素级扭曲对微小深度误差极为敏感,且常引入几何畸变。基于心理意象理论中"以部件级结构表征作为人类视角变换基础"的观点,我们探究ViT架构MLLM中的图像标记是否可作为视角变换的有效载体。通过对比前向与后向扭曲策略,发现后向标记扭曲(在目标视角定义密集网格并为每个网格点检索源视角对应标记)能实现更高稳定性,并在视角转换中更好地保持语义连贯性。在我们提出的ViewBench基准测试中,实验表明标记级扭曲使MLLM能够从邻近视角进行可靠推理,其表现一致优于所有基线方法(包括像素级扭曲方案、空间微调MLLM以及生成式扭曲方法)。
多模态大语言模型(MLLMs)正从被动观察者演变为主动智能体,通过视觉扩展(调用视觉工具)与知识扩展(开放网络搜索)来解决问题。然而现有评估体系存在不足:缺乏灵活的工具集成、对视觉与搜索工具分别测试、且主要依据最终答案进行评估。这导致无法验证工具是否真实调用、正确应用或高效使用。为此,我们推出Agentic-MME——面向多模态智能体能力的流程验证基准。该基准包含6大领域3个难度级别的418项现实任务,用于评估能力协同效应,并设有超2000个分步检查点,平均每项任务需10+人时的人工标注。每项任务配备支持沙盒代码与API的统一评估框架,以及标注有双轴分步检查点的人类参考轨迹:S轴(步骤轴)与V轴(验证轴)。为实现真正的流程级验证,我们审计细粒度中间状态而非仅最终答案,并通过相对人类轨迹的过度思考指标量化效率。实验结果表明,最佳模型Gemini3-pro总体准确率为56.3%,但在三级任务中骤降至23.0%,凸显出现实场景多模态智能体问题解决的挑战性。
现代大型语言模型在测试时具有扩展性,例如通过重复采样,其中推理成本随模型规模和采样次数增长。这形成了Chinchilla等预训练扩展定律未能解决的权衡关系。我们提出训练到测试(T^2)扩展定律,在固定端到端预算下联合优化模型规模、训练令牌量和推理样本数。T^2通过引入用于测试时扩展的pass@k建模方法革新了预训练扩展定律,进而联合优化预训练与测试时决策。T^2的预测在不同建模方法中表现出稳健性:既能衡量对任务损失的联合扩展效应,也能建模对任务准确率的影响。在八项下游任务中,我们发现当考虑推理成本时,最优预训练决策会显著转向过训练区域,完全超出标准预训练扩展套件的范围。我们通过在T^2扩展预测的最优区域预训练重度过训练模型来验证结果,证实其性能相比单纯预训练扩展有显著提升。最后,鉴于前沿大语言模型普遍采用后训练阶段,我们证明这些发现在后训练阶段依然成立,使得T^2扩展在现代部署中具有实际意义。
人类通过交流局部的、依赖视角的观察来建立共享的空间认知。我们探究多模态大语言模型(MLLMs)是否具备同等能力——能否通过对齐不同自我中心视角的对话,构建出关于共享环境的连贯异中心心理模型。为系统研究此问题,我们推出了COSMIC基准测试,旨在评估协作式空间通信能力。该设定中,两个静态MLLM智能体从不同视角观察同一3D室内环境,通过自然语言消息交互以解决空间查询。COSMIC包含899个多样化场景和1250组问答对,涵盖五项任务。我们发现存在稳定的能力层级:MLLMs在跨视角识别共享锚点物体时最为可靠,关系推理表现较差,而在构建全局一致性地图时几乎完全失效(即使前沿模型的正确率也接近随机猜测)。此外,思维链能力能稳定提升锚点定位性能,但不足以支撑更高层级的空间通信。为量化模型行为,我们还收集了250组人类对话数据。人类对话者总体准确率达95%,而表现最佳的Gemini-3-Pro-Thinking模型仅达72%,存在显著差距。进一步分析发现,随着对话双方心理模型趋同,人类对话会愈发具体;而模型对话则持续探索新可能性而非收敛,这与其构建和维护稳健共享心理模型的能力局限相符。代码与数据已开源:https://github.com/ankursikarwar/Cosmic
在芯片设计、GPU优化及嵌入式系统等工业软件开发领域,当前缺乏能够展现工程师如何推演硬件约束与时序语义的专家级推理轨迹。本研究提出InCoder-32B-Thinking模型,该模型基于工业代码世界模型(ICWM)驱动的错误链式思维(ECoT)合成框架生成的数据进行训练,专门用于生成推理轨迹。具体而言,ECoT通过融合多轮对话中的思维内容与环境错误反馈来合成推理链,显式建模了错误修正过程。ICWM则基于Verilog仿真、GPU性能分析等特定领域的执行轨迹进行训练,学习代码如何影响硬件行为的因果动态,并通过在实际编译前预测执行结果实现自我验证。所有合成的推理轨迹均通过领域工具链验证,形成的训练数据与工业任务的自然推理深度分布相匹配。在14个通用基准(LiveCodeBench v5达81.3%)和9个工业基准(CAD-Coder达84.0%,KernelBench达38.0%)上的评估表明,InCoder-32B-Thinking在所有领域均取得开源模型的顶尖结果。
随着OpenClaw等个性化、持久化大语言模型智能体框架的兴起,以人类为中心的智能体化社交网络正逐渐成为现实。在这种网络中,由协作AI智能体组成的团队可为社交网络中的个体用户提供跨领域服务。这一场景催生了新型隐私挑战:智能体需在跨领域协调、人际中介以及与其他用户智能体交互的同时,保护敏感个人信息。尽管已有研究评估过多智能体协调与隐私保护机制,但以人类为中心的智能体化社交网络的动态特性与隐私风险尚未得到探索。为此,我们推出首个系统性评估该场景隐私风险的基准框架AgentSocialBench,其包含基于具有分层敏感度标签和定向社交图的真实用户画像,覆盖双向及多方互动的七类场景。实验表明,智能体化社交网络中的隐私保护远难于单智能体场景:(1)即使明确要求智能体保护信息,跨领域跨用户的协调仍会形成持续性信息泄露压力;(2)指导智能体抽象化敏感信息的隐私指令反而会加剧相关讨论(我们称之为抽象化悖论)。这些发现表明,当前大语言模型智能体在以人类为中心的智能体化社交网络中缺乏稳健的隐私保护机制,要实现智能体中介式社交协调的安全部署,亟需突破提示工程范畴的新方法。
大型语言模型的部署受到静态权重和动态键值缓存对内存与带宽需求的制约。基于奇异值分解的压缩技术为降低这些成本提供了硬件友好的解决方案。然而,现有方法存在两个关键局限:部分方法在重构误差方面未达最优,另一些虽理论最优但实际效率低下。本文提出Swift-SVD——一种激活感知的闭式压缩框架,能同时保证理论最优性、实践高效性及数值稳定性。该框架通过批量输入逐步聚合输出激活的协方差,并在聚合后执行单次特征值分解,从而实现无需训练、快速且最优的逐层低秩近似。我们采用有效秩分析局部层级压缩性,并设计动态秩分配策略,协同考虑局部重构损失与端到端层级重要性。在六个大语言模型和八个数据集上的广泛实验表明,Swift-SVD优于现有最优基线,在实现最佳压缩精度的同时,将端到端压缩速度提升3-70倍。代码将在论文录用后开源。
视觉语言模型(VLMs)在广泛的多模态任务中展现出卓越性能。然而,在需要细粒度视觉感知的任务上,即使所需信息已存在于其内部表征中,这类模型仍常常表现不佳。本研究揭示,这一能力鸿沟源于其狭窄的训练流程——该流程侧重于将视觉信息迁移至文本空间。因此,VLMs仅能对可映射到语言空间已知概念的视觉实体进行推理,导致视觉对应性任务及涉及新颖视觉实体的推理等以视觉为核心的任务难以得到有效支持。这种局限性严重制约了VLMs的多模态能力,因为它们不得不依赖对无法映射到文本表征的视觉实体进行脆弱且易产生幻觉的文本描述。我们通过视觉对应性任务验证了这一现象:当要求VLMs检测两幅图像中的匹配实体时,在语义、形状和人脸对应性任务上的测试表明,模型对可命名实体的处理效果远优于不可命名实体。机制分析显示,Logit Lens技术证实VLMs会为可命名实体显式分配语义标签,并生成比不可命名实体更独特的对应标记。进一步实验表明,为未知实体赋予任意命名能提升性能,而针对特定任务的微调可在不依赖语言先验的情况下实现更强的泛化能力。我们的研究结果表明,当前VLMs在视觉任务上的失败反映了其训练过程中习得的捷径策略,而非多模态架构的根本性局限。
计算机智能体将语言模型从文本生成扩展到对工具、文件及执行环境的持续操作。与聊天系统不同,这类智能体能在多次交互中保持状态,并将中间输出转化为具体行动。这带来了独特的安全挑战:有害行为可能通过一系列单独看似合理的步骤产生,包括那些局部可接受但共同导致越权操作的中间行为。我们提出AgentHazard基准测试框架,用于评估计算机智能体的有害行为。该框架包含2,653个测试案例,覆盖多种风险类别和攻击策略。每个案例将有害目标与操作步骤序列相结合,这些步骤单独合法但共同诱发不安全行为。该基准测试评估智能体能否识别并阻断由累积上下文、重复工具使用、中间操作及跨步骤依赖关系引发的危害。我们在Claude Code、OpenClaw和IFlow系统上对主要采用Qwen3、Kimi、GLM及DeepSeek系列开源或可公开部署模型的智能体进行测试。实验结果表明现有系统仍存在高度脆弱性。特别是搭载Qwen3-Coder的Claude Code攻击成功率高达73.63%,表明仅靠模型对齐技术并不能可靠保障自主智能体的安全性。
随着大语言模型在传统基准测试上的性能趋于平缓,一个关键挑战日益凸显:如何评估其在体现真正专家级认知的复杂开放式任务中的能力。现有评估框架存在领域覆盖狭窄、依赖通用任务或自我评估偏差等局限。为弥补这一空白,我们推出XpertBench——一个用于评估大语言模型在真实专业领域表现的高保真基准。该基准包含1,346个经过精心设计的任务,覆盖金融、医疗、法律服务、教育及双轨研究(STEM与人文学科)等80个专业领域。这些任务源自1,000余份领域专家(包括顶尖机构研究人员及具备丰富临床或产业经验的从业者)的提交成果,确保了卓越的生态效度。每项任务均采用精细化评分标准,多数包含15-40个加权检查点以评估专业严谨性。为实现规模化且符合人类标准的评估,我们提出ShotJudge创新评估范式,通过使用经专家少量示例校准的LLM评判员来规避自我奖励偏差。对前沿大语言模型的实证评估揭示出明显的性能天花板:即使领先模型最高成功率仅约66%,平均得分约55%。不同模型还展现出领域特异性分化,在定量推理与语言合成方面呈现非重叠优势。这些发现凸显出现有AI系统存在的显著"专家级差距",并确立XpertBench作为推动通用助手向专业领域协作者转型的关键工具。
当前视觉语言模型通常采用基于对比式图像-文本目标(如CLIP风格预训练)的单视觉编码器架构。虽然对比式编码器在跨模态对齐与检索任务中表现优异,但自监督视觉编码器往往能捕捉更丰富的稠密语义,并在识别理解任务中展现出更强的鲁棒性。本研究探索如何规模化融合这两种互补的视觉表征以增强视觉语言建模。我们提出互补多编码器视觉语言框架,该模块化融合架构整合了对比训练视觉编码器与自监督DINO编码器。我们的方法通过以下机制实现表征级融合:(i) 采用熵引导的多层聚合配合正交约束投影以减少冗余;(ii) 通过RoPE增强的交叉注意力对齐异构令牌网格,生成紧凑的融合视觉令牌。融合后的令牌可注入仅解码器架构的大语言模型,且对标准视觉语言模型流程改动极小。在多类视觉语言基准测试上的实验表明,该框架持续超越单编码器基线模型:在视觉理解任务中平均提升4.9%,指代定位任务中提升5.4%。我们的方法在RefCOCO检测任务上达到最先进性能,且相对基线模型实现显著提升。最后,我们通过层融合策略、非冗余特征混合及融合能力三个维度的消融实验,系统评估了对比式与自监督信号对视觉语言模型性能的互补影响。
现实世界中的机器人动作规划具有挑战性,因其不仅需要理解环境的当前状态,还需预测环境如何响应动作而产生演变。基于视觉-语言-动作(VLA)的方法通过调用动作专家模块复用大规模视觉语言模型来生成机器人动作,已在多种机器人任务中取得显著成功。然而,其性能仍受限于训练数据的范围,对未见过场景的泛化能力较弱,且易受多样化语境干扰的影响。近期,世界模型被重新探索作为VLA的替代方案。这类被称为世界动作模型(WAM)的方法建立在世界模型基础上,通过海量视频数据训练以预测未来状态。经过微调适配,其潜在表征可被解码为机器人动作。研究表明,WAM凭借显式的动态预测能力,结合从网络规模视频预训练中获取的时空先验,能比VLA实现更有效的泛化。本文对主流VLA策略与新近发布的WAM进行了对比研究,在LIBERO-Plus和RoboTwin 2.0-Plus基准测试中评估了它们在不同视觉与语言干扰下的表现。实验结果表明WAM具有强鲁棒性,其中LingBot-VA在RoboTwin 2.0-Plus上达到74.2%的成功率,Cosmos-Policy在LIBERO-Plus上达到82.2%。虽然如π_{0.5}等VLA在特定任务中可实现相当鲁棒性,但通常需要依赖多样化机器人数据集和多目标进行大量训练。部分融合视频动态学习的混合方法表现出中等鲁棒性,这凸显了视频先验整合方式的重要性。
将视频生成模型蒸馏至极低推理成本(如2-4次NFE)对实时部署至关重要,但仍是挑战。基于轨迹的一致性蒸馏在复杂视频动态下常趋于保守,导致画面过度平滑与运动模糊。分布匹配蒸馏(DMD)能生成锐化的模态聚焦样本,但其局部训练信号未显式约束去噪更新的跨步组合,易使组合推演产生漂移。为此,我们提出自洽分布匹配蒸馏(SC-DMD),通过显式约束连续去噪更新的端点一致性组合来解决该问题。针对实时自回归视频生成,我们进一步将KV缓存视为质量参数化条件,提出缓存分布感知训练。该方案在多步推演中应用SC-DMD,并引入缓存条件特征对齐目标,引导低质量输出向高质量参考对齐。在非自回归主干(如Wan~2.1)和自回归实时范式(如Self Forcing)上的大量实验表明,我们的Salt方法能持续提升低NFE视频生成质量,同时兼容多种KV缓存机制。源代码将发布于https://github.com/XingtongGe/Salt。