每日精选AI研究论文及翻译
近年来,语言模型的发展以规模为核心特征,每一代模型都将更多世界知识吸收进其权重中。然而,许多实际应用更依赖于稳健的推理能力而非广泛的参数化知识。在此背景下,任务专用型小语言模型(SLMs)提供了一种原则性的设计选择。我们提出最优认知核心(OCC),这是一系列基于这一理念构建的小语言模型。作为OCC的一个变体,我们推出OCC-RAG,它针对基于给定上下文的忠实问答进行了优化。该任务与OCC的设计方法直接契合,要求在提供的段落上进行多跳推理,同时忽略记忆中的知识。为训练OCC-RAG,我们实现了一套新颖的数据合成流程,可规模化生成多上下文、多跳问答数据,最终构建了包含超过三百万个示例的语料库,专注于多跳推理、严格上下文忠实性以及校准式拒答。我们发布了OCC-RAG-0.6B和OCC-RAG-1.7B两个模型,它们均在该语料库上进行了中期训练。模型能生成带有来源引用的结构化推理轨迹,这些引用直接基于上下文中的原文。通过OCC-RAG,我们证明:紧凑的任务专用型小语言模型在多跳推理(HotpotQA、MuSiQue、TAT-QA)、忠实性(ConFiQA)以及拒答(MuSiQue-Un)等基准测试中,能够达到或超越规模大2至6倍的通用模型。
识别人类大脑中哪些区域表征视觉概念是神经科学的核心挑战。现有方法通过激活最大化定位粗略的功能区域(例如面孔、场所),即识别那些对目标概念相对于其他概念产生更强激活的区域。然而,仅凭强烈激活并不能证明该区域本身表征了该概念,因为反应也可能由相关的视觉或语义线索驱动。我们提出BrainCause——一种结合生成模型与脑模型的自动化框架,通过合成受控刺激并实施靶向因果测试来验证神经表征。给定指定感兴趣概念的查询,该框架构建靶向刺激集,包括概念图像、在保留其他图像内容的同时移除目标概念的反事实编辑图像,以及包含候选相关干扰物的图像。随后利用图像到功能磁共振成像编码模型预测脑反应,并寻找对目标概念反应特异性高于相关替代概念的脑区表征。BrainCause返回经过验证的候选表征,并提出后续功能磁共振成像实验以进一步检验或扩展其发现。我们的方法成功恢复了已知的功能定位,并在数十个概念中发现了新的候选表征,通过预测和实测的功能磁共振成像数据验证。关键的是,我们证明若缺乏因果验证,大部分定位结果实为假阳性,确认仅凭激活不足以作为表征的证据。
策略蒸馏(On-Policy Distillation, OPD)是大语言模型(LLMs)高效后训练的基础技术,在智能体学习、多任务增强和模型压缩中具有广泛应用。然而,当教师模型与学生模型的分布存在显著差异时,OPD训练会变得不稳定——教师对学生生成token的监督可能产生不可靠的策略梯度,甚至导致优化失败。本研究通过信用分配策略解决可靠的策略级token监督问题,提出信任区域策略蒸馏(Trust Region On-Policy Distillation, TrOPD)。其核心特性包括:1)信任区域策略学习:TrOPD仅在教师提供可靠监督的区域执行OPD,缓解分布不匹配下K1逆KL估计器的优化困难;2)离群估计:针对离群区域,我们探索梯度裁剪、掩码和正向KL估计等方法,减少不可靠监督的不利影响;3)离策略引导:学生从教师前缀继续生成,并使用正向KL模仿离策略引导,促进向可靠区域的策略探索。实验表明,TrOPD在数学推理、代码生成和通用领域基准测试中持续优于当前最优的OPD基线方法,包括OPD、EOPD和REOPOLD。
我们介绍Humanoid-GPT,一个采用因果注意力的GPT风格Transformer,它在十亿级运动语料上训练,用于全身控制。与以往受限于数据稀缺和敏捷性-泛化权衡的浅层MLP追踪器不同,Humanoid-GPT在20亿帧重定向语料上进行预训练,该语料统一了所有主要动作捕捉数据集和大型内部录制数据。通过扩展数据和模型容量,我们得到一个单一的生成式Transformer,既能追踪高度动态的行为,又能对未见过的动作和控制任务实现前所未有的零样本泛化。大量实验和扩展性分析表明,我们的模型建立了新的性能基准,在追踪高度动态复杂动作的同时,展现出对未见任务的鲁棒零样本泛化能力。
测试时缩放是一种提升大语言模型推理性能的有效方法,但在长序列解码过程中,由于KV缓存不断增长,内存会成为瓶颈。KV缓存量化有助于缓解这一问题,但现有方法通常在预填充式设置下进行评估,而误差在自回归解码中的表现有所不同。我们发现,在后一种情况下,量化误差会随时间步累积,主要源于不正确的token尺度。为此,我们提出KVarN——一种免校准的KV缓存量化器,它先对K和V矩阵进行哈达玛变换,再沿两个轴施加双尺度方差归一化。实验表明,这种组合能够修正异常的token尺度误差,并显著减少相较于现有基线的误差累积。KVarN在包括MATH500、AIME24和HumanEval在内的生成式基准测试中,以2位精度实现了KV缓存量化的新最先进水平。KVarN方法的vLLM实现可参见:https://github.com/huawei-csl/KVarN
强化学习后训练可在数学推理、代码生成、问答及创意写作(CW)等单一领域提升大语言模型(LLM)性能,但针对某一领域的训练常会降低其他领域的效果。基于灾难性遗忘或全局梯度冲突的现有解释并不完整:即使全模型梯度近似正交,仍可能发生显著干扰。我们证明,单领域强化学习会产生稀疏、小规模的参数编辑,且变化最显著的神经元之间重叠度很低,但不同领域仍然共享大量活跃的计算通路,而这些通路上更新方向决定了它们是协同还是冲突。基于这一观察,我们在多领域强化学习的局部扰动模型下证明:后续领域的训练主要通过一个二阶损伤项损害先前领域,而这一损伤项在观测到的稀疏通路结构下集中于低维度的共享冲突子空间。此外,短暂的领域刷新可压缩该子空间上的有害成分,从而在有限附带损伤下实现选择性恢复。与理论一致,在依次进行代码→数学→问答→创意写作训练后,对数学领域进行短暂再刷新,可将其得分从57.66恢复至66.04,同时基本保持其他领域性能,平均得分达到66.39。除刷新外,针对数学-问答这对领域的稀疏代理冲突坐标集进行无训练回滚,可部分恢复数学性能,直接提供了代理层面的局部损伤证据。这些结果为多领域强化学习中的干扰与恢复提供了局部化的机制性解释。
世界模型与多模态大语言模型(MLLMs)在从静态视觉观测预测未来结果方面具有互补能力。世界模型可生成未来可能性的具体视觉推演,而MLLMs能对问题、目标与规则进行抽象推理。然而,生成的推演具有随机性,虽在视觉上看似合理,却可能不符合任务需求,因此需要判断视觉模拟在何种情境下具有实用性、推演结果是否可信、以及如何影响最终答案。我们将此问题定义为受控的具体推理(controlled concrete reasoning),即模型需学会调用、验证视觉未来模拟,并将其与抽象推理相整合。为研究该场景,我们构建了两个经人工验证的基准数据集:用于可控空间前瞻推理的VRQABench,以及面向开放域物理预测的OpenWorldQA,并提出特权未来在策略自蒸馏(Privileged-Future On-Policy Self-Distillation,PF-OPSD)。训练阶段,PF-OPSD仅将真实未来视频与答案作为教师侧的特权上下文,用以评估在策略具体推理轨迹,而部署阶段的学生模型在测试时从未观测真实未来。实验结果表明,PF-OPSD在VRQABench和OpenWorldQA上分别比基线模型提升10.6%和10.9%,同时增强了对噪声或冲突推演的鲁棒性。我们的代码与数据集已开源:https://github.com/yczhou001/PF-OPSD。
自主智能体日益被期望支持端到端的医学AI研究工作流,而不再局限于孤立的预测任务或短篇临床问答。然而,现有医学智能体基准主要评估最终输出,对智能体在研究过程中的行为可见性有限。为弥补这一空白,我们提出AutoMedBench——一个面向自主医学AI研究工作流感知的基准,涵盖多种医学影像与多模态推理任务,将智能体执行组织为统一的五阶段工作流(S1-S5):规划、搭建、验证、推理与提交。该基准包含长周期任务,每次运行平均33轮智能体交互,覆盖五个研究主线:分割、图像增强、视觉问答(VQA)、报告生成与病灶检测。每个任务在两种难度层级(Lite与Standard)下进行评估,两者使用相同的数据与指标,但任务简报的支持程度不同;每次运行同时依据最终任务性能与S1-S5阶段得分进行评分,从而实现对从初始任务简报至最终提交产物的阶段级分析。在数千次记录的运行中,阶段级评分显示,平均而言验证是表现最弱的工作流阶段,而搭建最强,表明当前智能体更擅长使流程可执行,而非验证其可靠性。运行后错误分析进一步表明,验证与提交失败主导了标记错误,分别占触发错误代码的37.7%和38.1%,而任务理解错误罕见,仅占0.9%;触发一个错误代码的运行平均总分比无错误代码的运行低48%。
中期训练已成为现代大型语言模型开发中的重要阶段,它利用大规模精选混合数据集,在最终后训练之前增强模型能力。其数据选择问题具有独特性:数据在近乎预训练规模的条件下,以预训练风格的目标进行优化,但针对下游能力进行筛选,并来自不同格式和训练角色的异构来源。因此,有效的选择既需要可扩展性,也需要源自适应的语义标准。现有的基于模型的方法扩展性良好,但仅提供隐式的质量信号。语义选择方法能提供更强的判断,但通常假设固定的评价标准或标准化的数据格式。为解决这一不匹配问题,我们提出了MIRA——一种基于自锚定评价标准发现的源感知过滤框架。其核心思想是将评价标准的构建纳入数据选择过程:MIRA首先发现每个源组应该评估哪些方面,然后将这些判断提炼为可扩展的学生评分器,用于全语料库过滤。在涉及21个来源和5个源组的面向代码的中期训练中,MIRA在九个代码基准测试上超越了选择基线,且在使用仅一半词元的情况下达到了与完整语料库运行相当的性能。
用于视觉推理的强化学习(RL)需要可扩展、可验证且可控的训练信号。现有的视觉RL后训练基于静态精选数据集进行训练,这些数据集包含固定的图像-问题-答案样本,其规模受限于数据收集预算。本文中,我们提出TRON(Targeted, Rule-verifiable Online eNvironments,即目标导向、规则可验证的在线环境),一种在线环境基座:训练推演由可控的生成器-验证器程序按需生成,该程序采样新的潜在视觉状态,渲染图像,提出问题,并精确验证答案。因此,单次运行即可按当前课程所需难度生成无界的新实例流。当前的TRON套件包含520个环境,分为五个能力类别(空间、数学、图表、模式/逻辑和计数);同一基座既支持在所有类别上训练的单一完整模型,也支持按类别的能力专精模型,无需额外数据收集。我们还引入了一项基座分析,涵盖生成可靠性、实例与层级多样性、跨环境近重复样本以及基础模型按难度划分的通过率。采用METHOD的RL后训练在Qwen3-VL-4B、Qwen2.5-VL-7B和MiMo-VL-7B-SFT上持续提升了十个外部多模态推理基准的性能。
理解视频需要超越对孤立时刻的识别,因为人类会持续跟踪实体、状态和事件的时间演变过程。这种视觉状态跟踪能力是视频理解的基础,但当前针对多模态大语言模型(MLLMs)的评估中尚未充分探索这一能力。我们提出视频状态跟踪基准(VSTAT),这是一个基于视频的基准测试,旨在诊断MLLMs的视觉状态跟踪能力。VSTAT包含从合成与真实世界视频中提取的834个片段,并配以1500道无法仅凭单帧或短片段回答的问题,要求模型持续感知并整合整个视频流中的事件。尽管现有视频基准测试表现强劲,我们发现最先进的MLLMs远低于人类水平,仅略优于基于答案先验的基线模型。为分析这一差距,我们比较了MLLMs的思维轨迹与底层视频流,以理解MLLMs在VSTAT上失败的原因与时机。研究发现,MLLMs能够在文本层面正确推理和跟踪,但在视觉感知其需要跟踪的事件时存在失败。最后,初步评估表明,近期基于智能体的方法(包括基于MLLM的视频智能体和编码智能体)并未能轻易解决这些失败,在VSTAT上仍表现不足。
过去几十年,机器学习算法的设计取得了显著进展——从早期针对特定任务的浅层模型研究,发展到更通用的深度大语言模型(LLMs)。尽管现有模型在需要即时预测或上下文学习的任务中展现出可喜成果,但它们仍缺乏持续学习的能力,且无法将时间维度上的上下文知识有效迁移至长期参数中。受人类学习过程的启发,我们引入了一种"睡眠"范式,使模型能够持续学习,通过回放将其短期脆弱记忆蒸馏为稳定的长期知识,并通过"做梦"过程实现递归式自我提升。具体而言,睡眠包含两个阶段:(1)记忆巩固:一个名为"知识播种"的向上蒸馏过程——将较小规模自我的记忆蒸馏至更大网络中,在保留知识的同时提供更大容量。作为概念验证,我们提出了一种新的广义蒸馏过程实现"知识播种"(即基于策略的蒸馏与强化学习模仿学习的结合);(2)做梦:自我改进阶段,模型利用强化学习生成合成数据课程,无需人工监督即可演练新知识并完善现有能力。我们在长时域任务、持续学习、知识融合及少样本泛化任务上的实验,验证了睡眠阶段的重要性。
随着自动驾驶能力的持续提升,在长尾场景下对驾驶策略进行安全评估仍是一个关键瓶颈。在闭环仿真中,驾驶策略模型与环境主动交互,其动作动态更新模拟器状态,直接生成下一组传感器观测数据。尽管基于重建的神经模拟器能实现照片级真实感,但其本质上受限于初始捕获数据,难以泛化至高度动态或新颖场景。为突破这些局限,我们提出OmniDreams——一种从Cosmos扩散模型经过中期与后训练得到的生成式基础世界模型,能够以自回归方式实时生成条件化的视频序列。通过利用Cosmos丰富的视觉先验知识,并结合2.1万小时驾驶场景的中期与后训练,OmniDreams可合成传统模拟器难以捕捉的复杂未观测现象(如极端天气和不可预测的智能体动态行为)。关键在于,该模型以自回归方式将照片级传感器生成过程与历史帧、当前模拟器状态及即时驾驶动作相关联。在与Alpamayo 1策略模型及AlpaSim编排器组成的闭环系统中部署时,OmniDreams扮演着高响应、高反应性的环境角色,为下一代自动驾驶策略的训练与评估提供可扩展的全面解决方案。我们进一步展示了初步成果:基于OmniDreams后训练的世界-动作模型(WAM)在物理AI自动驾驶NuRec数据集上取得优异表现,超越基于VLA的Alpamayo 1.5研究策略模型,而参数量仅为后者的五分之一。这些结果凸显了OmniDreams这类实时世界模型作为策略架构骨干的潜力。
现代生成模型对视觉内容具有深刻的理解,然而将其训练用于图像编辑通常需要海量配对样本数据集。这限制了可扩展性,尤其在视频编辑中,收集配对数据的成本高得令人望而却步。我们提出Bootstrap Your Generator (ByG),一种用于流匹配编辑模型无配对训练的通用框架。该框架无需任何外部信号即可利用基础模型的知识。我们的方法将从冻结模型中提取的指令跟随线索与循环一致性相结合以保留结构。为使这一方法可行,我们提出将来自干净预测的下游损失梯度路由至噪声训练状态。我们在数据稀缺的图像和视频编辑挑战性场景中展示了最先进的成果。大量评估和用户研究表明,我们的方法有效泛化至未见过的领域,并优于基于数百万样本训练的监督基线。分析揭示,我们的梯度路由弥合了训练-推理差距,而从基础模型中提取语义线索提供了强大的训练信号,无需外部奖励模型。
我们提出了解耦残差去噪扩散模型(DRDD),用于统一且数据高效的图像到图像(I2I)翻译。尽管扩散模型在质量和多样性方面推动了I2I翻译的进步,但我们发现了扩散模型中一个先前未被充分探索的特性。关键在于,除了其传统的流形提升作用(即将数据从低维流形中移出)之外,注入高斯噪声通过隐式对齐跨域的特征分布来促进域协调,这一特性对于统一的I2I翻译尤为有利。然而,现有的扩散模型过早地削弱了这一协调效应,因为噪声和残差在单个耦合的扩散过程中被同时移除。为了解决这个问题,DRDD将扩散过程解耦为两个顺序且独立的扩散阶段:(1)随机噪声扩散,用于域协调和流形提升;(2)确定性残差扩散,在固定噪声域内完全学习核心语义映射。这种解耦在整个转换过程中保留了协调和流形提升效应,极大地简化了跨不同任务和域的统一映射学习。值得注意的是,噪声扩散阶段仅在丰富、未配对的目標域图像上进行训练,大大提高了数据效率。全面的理论和实证分析表明,DRDD与主流扩散模型广泛兼容,并且即使在有限配对数据的情况下,也能持续提供稳健、统一的I2I翻译。我们的代码可在 https://github.com/HKU-HealthAI/DRDD 获取。
个性化是现代语言代理的关键能力。然而,当前研究主要将个性化代理定位为用户偏好的被动响应者,这限制了它们主动与用户交互并提供建议或指导的能力。为系统评估这种在真实交互中的主动个性化能力,我们提出了Ψ-Bench,一个用于评估大语言模型通过对话影响真实用户能力的基准。我们在Ψ-Bench中设计了三个涉及说服的真实世界交互场景,并通过从对话历史中提取的显式用户画像赋予模拟客户端个性化特征。我们在Ψ-Bench上评估了10个前沿大语言模型,发现尽管大多数模型能生成连贯且合理的论点,但即使是当前最先进的模型在说服方面仍有显著提升空间。我们还发现,提供客户端画像访问权限可使平均性能提升18.24%,凸显了用户特定信息对有效说服的重要性。总体而言,我们的工作强调了个性化敏感影响作为评估和开发更具主动性的个性化大语言模型代理的一个具有挑战性且实用的方向。代码可在以下链接获取:https://github.com/Hanpx20/Psi-Bench。
测试时扩展能提升大型语言模型的推理性能,但会大幅增加总计算量和延迟。现有自适应采样方法通过动态决定何时停止采样,在一定程度上缓解了该问题,但这些方法通常依赖启发式规则或分布假设。本研究将自适应采样建模为马尔可夫决策过程(MDP),并利用强化学习(RL)训练一个轻量级采样控制器,以联合权衡答案正确性、延迟与计算成本。在每个轮次中,控制器决定是停止采样还是获取更多样本。该方法仅依赖最终答案的统计数据,极为轻量,可在CPU上完成训练与部署。我们进一步证明,该框架可解释为带有显式预算约束的约束优化问题的拉格朗日松弛。在ASC和ESC等强基线上的实验表明,本方法在答案正确性、采样轮次与所需总样本数之间实现了更优的权衡。
诸如A-Evolve、GEPA和Meta-Harness等自动工具集系统,通过从执行反馈中优化提示、技能、工具、记忆及支撑基础设施来提升大语言模型智能体性能,但这类系统通常仅在固定离线基准上进行评估。然而实际部署面临开放式的任务流:历史记录无限增长,异构任务需要不同工具集,问题分布随时间动态变化。这些挑战导致单一频繁密集更新的工具集变得脆弱,表现为准确率在早期达到峰值后持续下降。这促使我们需要构建具备任务级自适应能力的持久化工具集。本文提出自适应自动工具集(Adaptive Auto-Harness),这是一个面向此类任务流的框架与系统。该框架将理想工具集与当前工具集之间的差距分解为演化损失与适应损失。系统通过有状态多智能体进化器、带求解时路由的工具集树,以及在历史数据缺乏必要信号时嵌入的人工引导钩子来应对这些损失。在预测市场、安全竞赛和事件预测三类任务流中,自适应自动工具集优于五种现有自动工具集基线,消融实验表明性能提升归因于更优的构建、路由或针对性人工引导。代码已开源至https://github.com/A-EVO-Lab/AdaptiveHarness。
我们介绍PaddleOCR-VL-1.6,这是基于PaddleOCR-VL-1.5升级的紧凑型文档解析模型。尽管PaddleOCR-VL-1.5建立了强大的0.9B基线,但其残留错误主要集中在欠优化区域,这些区域表现为模型行为不稳定、数据覆盖稀疏或监督信号不可靠。PaddleOCR-VL-1.6并非不加区分地扩展训练语料,而是引入了一种区域感知数据优化框架,从先前模型中识别薄弱区域,对这些区域进行针对性增强,并提升监督信号的可靠性。该模型进一步采用了基于精心数据选择和强化学习的渐进式后训练方案,通过分阶段优化将模型性能提升至更高水平。PaddleOCR-VL-1.6在OmniDocBench v1.6上取得了96.33%的最新最优分数,展现出与顶级VLM的强劲竞争力,并为PaddleOCR-VL系列提供了实用的后训练方案。
指令微调使大型语言模型(包括多模态模型)能够适配多样化的用户意图,但扩展到异构混合数据集时,梯度干扰和带宽密集型的同步机制成为主要瓶颈。我们探讨能否通过独立训练部分数据混合集并在参数空间中一次性合并,从而联合解决这两个瓶颈。在共享平坦盆地内建立局部二次型理论,得到三个结果:权重合并产生曲率加权的方差缩减;PCA对齐的冲突分割能沿着高曲率方向最大化这一增益;合并还能充当谱滤波并隐含范数正则化。这些结果直接催生了MERIT——一种去中心化、可合并的指令微调流水线:估算数据集级别的梯度冲突,沿主PCA冲突轴划分数据混合集,各分区独立微调(无需分区间通信),最后通过令牌加权平均一次合并。在包含136个Vision-FLAN任务的Qwen2.5-VL-3B模型上,MERIT将8个基准测试的平均分从54.3(联合训练)提升至57.0。相同方案可扩展到70亿参数模型、160万样本、176个来源的混合数据集,性能达到或超越集中式联合训练且额外开销极小,并可直接迁移至纯文本FLAN数据集。代码开源:https://github.com/naver-ai/merit。
具身视觉导航中,智能体通过原始感官输入感知复杂环境并采取行动达成目标,支撑着家庭服务机器人、辅助机器人以及大规模自主探索等广泛的应用场景。然而,近期将视觉语言导航(VLN)与物体目标导航(ObjNav)统一的尝试仍停留在架构融合、混合任务训练和大规模视觉语言预训练层面,尚未验证独立训练的视觉与语言编码器是否已共享共同的语义结构。此外,即使基于物体中心的拓扑地图,仍需借助CLIP或大型视觉语言模型等显式跨模态监督来锚定语言目标,这引发了疑问:纯粹基于视觉构建的地图是否也能实现这种锚定。为解决这些挑战,我们将柏拉图表示假设拓展至具身导航,并将纯视觉ObjNav、跨模态ObjNav与VLN重新定义为同一物体中心语义流形的三种不同接口。我们进一步提出无训练框架PlatonicNav,其柏拉图拓扑地图融合了自监督视觉编码器中的几何与语义节点距离,并通过盲匹配(无需任何配对的视觉语言数据)锚定语言目标。在仿真基准(包括基于MP3D的HM3D-IIN、OVON和R2R-CE)上的大量实验,以及在宇树Go2上的部署,表明PlatonicNav无需显式跨模态训练即可跨任务、跨模态、跨具身形态泛化。代码:https://github.com/AIGeeksGroup/PlatonicNav。网站:https://aigeeksgroup.github.io/PlatonicNav。
长链思维(CoT)追踪常被用作面向推理的大语言模型监督微调(SFT)的监督信号,然而,即便答案正确的追踪数据仍可能导致微调结果显著不同。我们研究了答案正确的长链CoT数据中的结论后延续现象:即答案已获得充分支持,但追踪数据仍包含额外的推理内容并被保留在监督目标中。为检验其训练效果,我们采用仅删除操作的编辑器,构建保留答案的后缀移除操作,并将原始追踪数据与处理后的追踪数据分别进行基于CoT的SFT对比。实验发现,移除编辑器识别的结论后延续后,SFT结果得到改善,表明这种延续在本文设定下对训练有害。因此,我们将这一经实证支持的现象称为“有害延续”。除干预分析外,我们还通过不确定性与隐状态进展对移除的结论后延续进行了表征,观察到局部不确定性持续存在,同时终端方向进展减弱,形成不确定性与几何特征的失配。最后,我们实现了“有害延续截断”(HCC)——一种轻量级的边界近似方法,可逼近编辑器识别的结论后延续边界。
在线策略蒸馏(OPD)通过让学生在强教师模型提供的密集词元级反馈下,基于自身生成轨迹进行训练,同时缓解了监督微调(SFT)的离策略分布偏移和强化学习(RL)的稀疏信用分配问题。然而,标准OPD面临两个相互关联的局限性。首先,它需要直接访问教师模型的词元级对数几率,这排除了大量功能强大的专有模型担任教师角色的可能性。其次,词元级对数几率信号本身具有脆性,依赖于教师与学生之间合理下一词元的狭窄重叠,且容易放大重复循环等退化模式。本文提出OmniOPD这一新框架,通过一种无需对数几率、基于片段级的监督信号来同时解决这两个局限性。OmniOPD用蒙特卡洛轨迹展开取代确定性对数几率匹配,该方法通过多词元片段上的连续语义相似度度量来近似教师模型的局部偏好,并通过峰值熵调度器仅在学生模型高不确定性的推理分支处进行监督,从而集中这种监督信号。狄利克雷-多项式贝叶斯先验和基础模型KL散度锚点进一步约束离散采样的方差,防止在未监督词元上出现策略崩溃。在多个竞争性基准测试中,OmniOPD在数学任务上比标准OPD方法提升高达+28.64%,验证了片段级语义验证能够提取比词元级对数几率匹配更可靠的学习信号——后者高信息密度被显著噪声和脆性所抵消。此外,当与Claude-4.5-Haiku和Gemini-2.5-Flash等更强的黑盒教师模型配对时,OmniOPD在数学任务上相比其开源权重教师模型额外提升+9.54%,推动学生模型超越自探索式强化学习的性能。
当前音乐相似性模型通常计算单一的整体分数,将旋律、节奏和音色等不同音乐维度纠缠在一起。这限制了用户的控制和可解释性,使得无法执行精细化查询。我们提出了MERIT框架,用于学习针对这三个核心维度进行解耦的、因子特定的音乐表征。为解决真实音频中缺乏隔离音乐变化的问题,我们采用了一种新颖的训练策略,利用条件音频生成和源分离音轨,在训练数据中强烈鼓励单因子变化。我们的评估展示了较强的因子级解耦能力。每个头部对其目标感知维度有强烈响应,而对其他维度则接近随机水平,这一表征特性在合成训练领域和独立真实音频中均保持成立。
推理模型通过扩展思维链提升准确性,但长输出造成了内存与计算瓶颈。KV缓存淘汰方法通过从缓存中移除不重要的键值对来降低成本,然而其准确性往往低于基于选择性稀疏注意力(保留完整KV缓存)的替代方案。我们识别出影响KV缓存淘汰准确性的关键因素:首先,极少部分值状态具有异常大的幅度,移除它们会导致灾难性失败——模型陷入重复推理循环;其次,在淘汰过程中引入随机性可通过增加缓存多样性来提升准确性。基于这些发现,我们提出值感知随机KV缓存淘汰(VaSE),这是一种无需训练的方案,可保护大幅值状态并促进多样化的淘汰决策。在六项推理任务中,采用VaSE且KV缓存压缩4倍的Qwen3模型,在相同稀疏度下比最先进的选择性方法获得更高平均准确率,同时超越最强淘汰方法超过4%。总体而言,VaSE弥合了效率与准确性之间的差距,支持FlashAttention2,并为推理模型实现了静态内存占用。
有限元分析是固体力学领域最重要的数值方法。其面临的挑战包括入门级用户陡峭的学习曲线,以及因边界条件、载荷工况和求解变量等关键仿真组件的错误定义可能导致虚假仿真结果。实际工程问题的解决通常需要多年的工程经验积累。为解决这些问题,我们提出AbaqusAgent——一个基于大语言模型的多智能体框架,专用于固体力学分析。该框架利用Abaqus(最广泛使用的有限元分析软件包之一),通过将用户自然语言指令转化为可执行的有限元分析流程及结果可视化,实现分析案例的生成与执行。AbaqusAgent由六个智能体组成,包括解释器、构建师、输入文件生成器、运行器、审查器与可视化器,覆盖标准有限元分析的所有关键前处理与后处理步骤。在50个多样化的固体力学问题验证中,该框架实现了86%的整体成功率。除提升固体力学有限元分析效率并降低计算力学的学习门槛外,AbaqusAgent还推动了人机仿真交互范式的革新,并可集成至基于人工智能的优化与材料表征工作流中。代码已开源至https://github.com/LIRAM-LIN/AbaqusAgent。
大语言模型在通用能力上已取得显著进展,并可通过领域特定数据的微调在特定领域实现强大性能。然而,获取目标领域的高质量数据仍是一项重大挑战。现有数据合成方法遵循演绎范式,严重依赖以自然语言表达的显式领域描述和精细的提示工程,这限制了其在难以用自然语言表述或正式界定的真实场景中的适用性。本研究通过归纳范式解决领域特定数据合成这一尚未充分探索的问题——目标域仅通过一组参考示例定义,尤其适用于领域特征难以用自然语言阐述的场景。我们提出新型框架DOMINO,从参考样本中学习最小充分领域表征,并利用该表征指导生成领域对齐的合成数据。DOMINO深度融合提示调优与对比解耦目标,将领域级模式与样本特定噪声分离,在保留核心领域特征的同时缓解过拟合。理论上,我们证明DOMINO扩展了合成数据分布的支撑集,确保更高多样性。实验表明,在领域定义隐含的挑战性编程基准测试中,基于DOMINO合成数据微调的方法相比强大的指令微调基线模型,Pass@1准确率提升高达4.63%,验证了其有效性与鲁棒性。本研究为领域特定数据合成建立新范式,无需手动设计提示或自然语言领域规范即可实现实用且可扩展的领域适配。
计算社会科学的一个核心目标是发现语言在感兴趣的结果(如政治倾向或教学质量)中如何变化的可解释差异。近年来,基于大语言模型的假设生成方法用自然语言描述这类差异,但仅选取全局区分性模式,而未考虑研究者基于领域知识所指定的协变量。忽视协变量会导致所选模式反映的是混杂因素而非实质性的差异。本文提出条件假设生成框架,该框架引入研究者指定的协变量,将假设发现引导至在相关子群内成立的差异。这面临两个挑战:目标子群可能代表性不足(分层不平衡),且差异的方向可能在子群间发生反转(符号反转)。我们提出两种受计量经济学启发的方法:一种引入特征与协变量的交互项以检测符号反转,另一种采用层内去均值与逆频率重加权来平衡代表性不足的层。合成实验表明,每种方法在其针对性场景中均优于全局基线;对两个真实数据集的专家评估证实,考虑协变量的生成能在相关子群中挖掘出更有用的假设。
在立体转换中,精确建模软边界(如毛发和散焦模糊)是一项基础挑战,原因在于前景与背景的混合具有模糊性。现有深度模型主要预测单层深度,导致软边界处深度对应关系存在歧义。尽管抠图技术能够捕获不透明度以实现分层建模,但在包含多个目标的复杂场景中往往表现不佳,且通常需要人工干预。本文提出αDepth——一种通过分解软边界实现高保真立体转换的分层表示方法。具体而言,我们首先通过估计软边界处的分层颜色与深度值,解决混合颜色与深度的歧义问题。针对包含多个目标的复杂场景,我们设计了圆形Alpha表示(CAR),将范式从全局目标提取转向局部边界分解。与先前局限于单一前景/背景的抠图方法不同,CAR无需人工引导即可实现高效的场景级推理。大量评估表明,αDepth在立体转换中实现了最先进的性能,消除了软边界处的背景渗漏与结构畸变。
实时视觉任务要求模型在多种硬件上同时具备准确性、高效性和易部署性。YOLO系列因此得到广泛应用,然而多数YOLO检测器在推理时仍依赖非极大值抑制(NMS)、因使用分布聚焦损失(DFL)导致检测头过重、训练周期较长,且可能使最小目标无法获得正标签分配。我们提出Ultralytics YOLO26——一个统一的实时视觉模型系列,通过协同架构与训练改进解决上述局限。YOLO26采用双检测头设计实现原生无NMS的端到端推理,并完全去除DFL,获得更轻量且回归范围无约束的检测头。其训练流程结合了MuSGD(一种从大语言模型训练改进的混合Muon-SGD优化器)、渐进损失(将监督信号逐步转向推理时检测头)以及STAL(一种保证小目标正样本覆盖的标签分配策略)。除检测外,YOLO26为实例分割、姿态估计和旋转目标检测引入了任务专属的检测头与损失设计,在各类任务与模型尺度上均实现一致性能提升。该系列涵盖五种尺度(n/s/m/l/x),支持检测、实例分割、姿态估计、分类及旋转目标检测于单一流程,并提供开放词汇扩展版YOLOE-26,实现无文本、无视觉提示的推理。在所有尺度下,YOLO26在COCO数据集上以1.7-11.8毫秒的T4 TensorRT延迟达到40.9-57.5 mAP,相较此前实时检测器刷新了精度-延迟帕累托前沿;而YOLOE-26x在文本提示下于LVIS minival上取得40.6 AP。代码与模型已开源:https://github.com/ultralytics/ultralytics。
ClawHub 安全信号是一个经过清洗的数据集,包含 67,453 个最新的公开 OpenClaw 技能版本。每行数据将经过处理的 SKILL.md 内容与清理后的捆绑文件(如有)配对,并附上最终的 ClawScan 注册表判决结果,以及来自三种扫描器系列(VirusTotal、静态启发式分析、NVIDIA SkillSpector)的证据。 我们并非估算恶意技能的流行程度,而是研究扫描器之间的分歧。三种扫描器很少针对同一技能发出告警:任意两个扫描器在其合并阳性结果上的重叠比例不超过 10.4%,仅 0.69% 的技能被三种扫描器同时标记,而 81.9% 的被标记技能仅由单一扫描器识别。这种分歧与攻击面具有结构性关联。SkillSpector 发出的是语义层面代理风险评估告警,而非恶意软件信誉信号,其在 25,504 个可疑行中检出 19,209 个阳性(75.3%),但在 206 个恶意行中仅检出 14 个阳性(6.8%)。恶意判决区域呈现相反的分布特征:206 个恶意行中有 150 个(72.8%)为 VirusTotal 阳性,与捆绑代码中的恶意软件证据一致。 这些结果表明,代理技能安全需要分层治理,而非单一扫描器的允许/阻止决策。该语料库以清洗后的银标准数据集形式发布:标签为注册表的自动化判决,而非人工标注的真实基础,此次发布代表一个早期版本快照,旨在支持社区发展,同时人工标注子集正在建设中。鼓励进一步研究,包括为技能安全分类量身定制的模型。
KV缓存适用于数据中心,却不适用于机器人。数据中心推理会批量处理大量短请求并重置缓存,将注意力缓存在众多请求间分摊。而具身智能体则在带宽受限的边缘硬件上运行单一、不重置的长周期任务,在此场景下,高带宽内存与闪存稀缺,闪存写入耐久度有限,内存写入而非计算可能成为制约瓶颈。 AURA-Mem(行动-效用递归自适应记忆)专为此场景设计。它采用恒定大小的递归记忆包裹一个冻结的视觉-语言-动作主干,并配备一个学习型门控机制——仅当当前观测会改变下一步动作时才写入记忆:这是一种懂得何时保持静默的记忆。与基于重构的记忆不同,该门控直接针对闭环动作误差信号进行训练。其推理状态固定为4,224字节,不受时间步长影响,而KV缓存在10万步时体积扩大至6,061倍。 在受控合成基准测试中,AURA-Mem在精度上与最优的O(1)基线持平,同时写入次数减少5.19-6.13倍,在较简单配置下减少高达9.19倍。预算匹配的随机与周期性调度无法恢复这一增益,从而将优势归因于行动-惊喜信号。在LIBERO-Long数据集上训练的闭环OpenVLA-OFT 7B面板测试中(每只机械臂60个回合),门控机制并未损害成功率:AURA-Mem与未设门控的基础策略持平(0.233),并略优于始终写入的KV对比方案(0.217),同时写入次数减少7.0倍且内存恒定。我们还实例化了一个近似信息状态的价值损失边界作为方法论演示;在当前规模下,该边界是松弛的而非有保证的。
工业视觉中的模拟到现实迁移常被描述为从合成图像到真实图像的转换,但工业部署通常涉及可用证据与所需决策之间更广泛的错配。系统可能基于CAD渲染图、模拟RGB-D观测、标准参考图像、合成缺陷、预训练特征空间或语言提示构建,却在不同的传感器、光照、材料、夹具、标定、生产变异及罕见缺陷模式下部署。本综述将工业视觉模拟到现实迁移重新定义为一种依据先验可用性组织的领域差距问题。我们区分了三种设置:CAD可用设置,其中显式物体几何可支持渲染、标定、位姿估计、分割及测试时的几何验证;CAD不可用设置,其中几何被标准参考外观、特征分布、师生残差、合成异常假设、基础模型特征或视觉语言先验取代;以及边界先验设置,其中近似模型、模板、参考视图或语义对应仅保留CAD的部分作用。这种框架将基于CAD的检测和六自由度位姿估计文献,与通常被分开综述的工业异常及表面检测文献联系起来。为使分类具体化,我们使用T-LESS/BOP、MVTec AD和VisA上的实证锚点。这些锚点表明,仅靠CAD渲染数量无法弥合迁移差距;源分布设计、检测器容量及少量真实标定可能更为重要。它们还表明,测试时的CAD通过掩码、位姿和深度一致性创建了一个独特的验证通道,而CAD不可用的检测则依赖于标定的正态性和特征偏差。因此,本综述反对单一的跨任务排行榜,转而探讨什么先验支撑了部署决策。
面向3D重建的前馈模型通过深度跨视图注意力机制在图像间交换信息已取得显著性能,但这类方法通常依赖厚重的解码器堆叠,且缺乏用于几何优化的结构化机制,导致多视图一致性较差。本文受经典光束法平差(BA)启发——该过程可视为位姿与局部几何之间的迭代信息传播——提出BA-T迭代式Transformer,将BA风格的结构化更新作为可重复层在隐式令牌空间中实现。BA-T不依赖深层注意力堆叠,而是通过单个轻量化层基于潜在残差逐步优化预测。实验表明,BA-T在迭代中逐步提升位姿与重建精度,相比传统解码器实现更强的跨视图一致性,且仅使用其16%的解码器参数即可媲美或超越规模显著更大的模型。BA-T为深度注意力机制提供了紧凑、高效且结构化的替代方案,使轻量级架构实现精确3D重建成为可能。代码将开源至https://github.com/zhangganlin/BA-T。
训练于大语言模型激活值上的线性探针日益被提出用作欺骗检测指标,但在干净基准测试上AUROC超过0.96的同时,却会在分布偏移下崩溃。本文系统性地对Gemma 3模型系列(1B-27B参数)中基于探针的指标进行压力测试,诊断其失败原因而非仅记录失败现象。我们检验了关于欺骗编码的四种假设:(1)单一线性方向,(2)多维子空间,(3)凸锥形包络,(4)熵代理。实验设计包含跨领域迁移矩阵、基于置换零假设的多维探针分析、熵残差化测试,以及在8种风格偏移下的干扰项评估。主要发现包括:(a)探针在干净数据上接近完美AUROC(>=0.998),但在风格偏移下崩溃;风格增强型探针在未见风格上恢复近完美检测(平均AUROC 0.979-0.983);(b)单一方向假设被拒绝(k=1仅捕获0.61-0.80 AUROC),跨领域迁移失败被确认为几何问题而非层不匹配导致;(c)熵代理假设被拒绝(最大|ρ|=0.454,残差化后最大Δ-AUROC=0.004);(d)欺骗信号未形成显著线性子空间(各领域k*=0),但多维探针(k≥5)通过分布式的亚阈值特征恢复信号。探针的脆弱性反映的是分布狭窄性而非架构限制:风格增强型探针在4B和27B参数规模下均恢复近完美检测,证明逆缩放模式是训练分布的人工产物而非真正的规模依赖现象。
近年来,多模态大语言模型展现出强大的推理能力,但其作为自动评估器的可靠性仍受制于一个关键缺陷:当视觉证据与文本线索冲突时,多模态大语言模型评判者更倾向于奖励看似合理的叙述,而非基于感知的正确答案。我们识别并系统分析了这一现象,将其命名为"感知判断偏差"。通过受控视觉扰动实验发现,现有的多模态评判者常将判断锚定于回答文本而非自身的视觉感知,导致评估结果不一致且不可验证。针对这一问题,我们提出了"感知扰动判断数据集",该数据集构建了最小化编辑的反事实回答,能够隔离感知错误并提供可验证的监督信号。基于此数据集,我们开发了一个统一训练框架,结合基于GRPO的结构化奖励机制与批量排序目标,无需显式成对标签即可实现连贯的全局排序。在多个MLLM-as-a-Judge基准测试上的实验表明,我们的方法显著提升了感知保真度、排序一致性以及与人类评估的对齐程度。研究结果为训练具备感知基础、可解释且能抵抗视觉-推理冲突的多模态评判者开辟了一条兼具可扩展性与泛化性的新路径。
WALL-WM是一种世界动作模型,它将视频-动作学习从以块为中心的优化转向基于事件的视觉-语言-动作预训练,把语义连贯的动作事件作为学习的基本单元。现有WAM通常从多模态或视频基础模型初始化,然后根据当前观测和指令直接优化固定长度的动作块。尽管方便,但这种以块为中心的公式造成了基本的粒度不匹配。语言描述语义目标和事件,视觉通过连续场景动态演化,而动作运行在控制层面的时间尺度上;将三者强行纳入同一固定长度预测窗口,会使VLA训练退化为短视的相关性拟合。WALL-WM通过围绕语义事件组织监督和数据来解决这一不匹配问题。具体而言,它将基于事件的VLA预训练与由事件级标题和聚类平衡采样构建的数据生态系统相结合,从而实现对多样化行为、场景和任务结构的可扩展学习。基于同一事件预训练骨干网络,WALL-WM支持两种互补推理模式:事件模式消费下一事件描述并支持可变长度执行块,而统一模式则使用带阶梯式解码的VLM来约束常规固定长度块推理,同时保留梯度连续的VLA路径。结合基于Muon优化器的大规模预训练基础设施,WALL-WM为通用WAM提供了一套实用的规模化方案。实验表明,WALL-WM在语言、场景和任务上均具有广泛泛化能力,在大规模真实世界泛化评估中达到了最先进性能。