每日精选AI研究论文及翻译
诸如 SWE-bench 等仓库级编程基准测试推动了编程代理能力的快速提升。然而,它们通常将编程任务视为一个整体的二元预测问题(例如,已解决或未解决),忽略了诸如仓库理解、上下文检索、代码定位和缺陷诊断等细粒度的代理能力。在本文中,我们引入了 SWE-Explore,这是一个专门评估仓库探索能力的基准测试,而仓库探索是编程代理的一项关键能力。给定一个仓库和一个问题,SWE-Explore 要求探索器在固定的行数预算下返回一个相关代码区域的排序列表。SWE-Explore 涵盖了 10 种编程语言和 203 个开源仓库中的 848 个问题。对于每个实例,我们从独立成功解决同一问题的代理轨迹中推导出行级真实标注,提炼出其解决路径实际参考的特定代码区域。我们从覆盖率、排序和上下文效率维度评估探索能力,表明这些指标与下游修复行为高度相关。在广泛的检索方法、通用编程代理和专用定位器中,我们发现代理式探索器明显优于传统检索方法。尽管现代方法在文件级定位上已经很强,但行级覆盖率和高效排序仍然是区分最先进探索器的关键维度。
近期AI系统在众多基准测试中取得了优异表现,但这些成果并未转化为许多专业领域内具有经济意义的实际部署。我们认为这一偏差本质上是评估问题:广泛使用的基准测试缺乏对真实且具有经济价值的工作流程进行持续性能测量。本文介绍"智能体终极考试"(Agents' Last Exam, ALE),这是一个面向AI智能体设计的基准测试,旨在评估其在长周期、高经济价值、结果可验证的真实世界任务中的表现。ALE由250多位行业专家合作开发,覆盖以O*NET/SOC 2018(美国联邦职业分类体系)为参照的非实体产业。该基准围绕任务分类体系构建,包含13个产业集群下的55个子领域,涵盖1000余项任务。当前结果表明,最具挑战层级的任务远未达到饱和状态:在主流框架与基础配置下,平均完全通过率仅为2.6%。ALE被设计为动态基准:随着新工作流程和产业领域的持续接入,其任务库将不断扩充。更广泛而言,ALE的定位不仅是另一个排行榜,更是弥合基准测试成功与GDP相关影响力之间差距的工具。
在线策略蒸馏(OPD)被越来越多地用于提升大型语言模型的推理能力,但其训练动态仍未被充分理解。我们在参数空间中刻画了OPD更新的轨迹,并将其与监督微调(SFT)和可验证奖励强化学习(RLVR)进行了比较。一系列参数空间诊断始终将OPD置于一个宽松的非主成分区域:与SFT相比,其更新影响更少的权重,且更强烈地避开主方向;而与RLVR相比,其约束则相对宽松。除静态局部化外,OPD还表现出子空间锁定现象:其累积更新迅速进入一个狭窄的低维通道。将训练限制在训练早期形成的更新子空间内,可保持OPD的性能,但会显著降低SFT的效果,表明该锁定子空间对OPD具有功能上的充分性。控制实验进一步显示,稀疏化更新token或将rollout生成移至离线策略不会改变秩动态,而将OPD目标与RLVR混合则会改变它们。总体而言,这些结果表明OPD并非仅仅是SFT与RLVR之间的中间点,而是在参数空间中诱导出自身独特的更新几何结构。
智能体系统越来越多地使用文本技能来编码可重复使用的任务流程,但在每一步将这些技能注入提示中会带来显著的上下文开销,并将技能内容以明文形式暴露。我们提出LatentSkill框架,通过预训练的超网络将文本技能转换为即插即用的LoRA适配器。LatentSkill将技能知识存储在权重空间而非上下文空间,在消除每步技能令牌的同时,保留了模块化加载、缩放和组合的能力。在ALFWorld和Search-QA上,LatentSkill在显著减少预填充令牌的情况下,超越了对应的上下文技能基线:在ALFWorld的已知和未知划分上,成功率分别提升21.4和13.4个百分点,预填充令牌减少64.1%;在Search-QA上,精确匹配提升3.0个百分点,技能令牌开销降低72.2%。进一步分析表明,生成的技能LoRA形成了结构化的语义几何形状,可通过LoRA缩放系数精确控制,并且在技能组件对齐时可通过参数空间算术进行组合。这些发现表明,权重空间技能为扩展LLM智能体提供了一种高效、模块化且更少暴露的基底。
视频世界模型在生成帧之间保持三维空间一致性时,通常依赖于在RGB空间中构建的显式点云记忆。这种设计不仅计算成本高昂(需要重复进行渲染和VAE编码),而且本质上存在信息损失——因为经过像素空间的往返过程会丢弃学习到的潜在表示中的丰富特征。本文针对视频世界模型提出了潜在空间记忆,这是一个直接存储在扩散潜空间中的持久化三维缓存,避免了像素空间重建。在此基础上,我们提出了Mirage——一种潜在空间记忆框架,通过深度引导反向投影将潜在标记提升到三维空间来构建记忆,并通过直接进行潜在空间扭曲来合成新视角以实现查询。这一统一范式既消除了像素空间重建的信息损失,也去除了重复编码和渲染的计算负担。实验表明,相比显式三维基线方法,潜在空间记忆在端到端视频生成速度上提升了最高10.57倍,内存占用减少了55倍。通过利用扩散模型的几何先验,Mirage在WorldScore上达到了最先进的性能,并在RealEstate10K上展现了强大的重建质量。
尽管近期基于文本引导的视频编辑模型在基础任务(如风格迁移、对象插入)上表现出色,但现实用户需求往往具有高度组合性。单一提示词常要求多项耦合编辑,例如修改主体、动作和拍摄视角,同时严格保留无关的时空内容。现有基准受限于孤立的编辑操作和粗粒度的全局指标,无法有效诊断模型处理此类复杂工作流的能力。为填补这一空白,我们提出CoVEBench——一个组合式视频编辑基准,包含416段精选源视频、626条多点编辑指令及9,990个细粒度检查项。该基准覆盖多样化的编辑维度,通过多模态大语言模型评判指令遵循度与视频保真度,并结合自动化指标评估视频质量。大量实验表明,组合式编辑仍是一项重大挑战:当前模型在处理多重并发操作时,常出现编辑遗漏、约束违背或伪影引入等问题。CoVEBench作为一个具有挑战性的诊断性测试平台,致力于推动视频编辑向贴近真实用户工作流的方向发展。
传统大语言模型在解码过程中需完整加载KV缓存,导致超长上下文服务时出现严重的GPU内存瓶颈。本报告提出前瞻稀疏注意力机制(LSA),这是一种基于DeepSeek-V4架构构建的神经记忆索引器驱动的新型推理范式。与被动关注所有历史令牌不同,LSA主动预测未来上下文需求,仅保留查询关键KV块驻留在GPU内存中。关键创新在于,我们通过无主干网络的解耦训练策略实例化该架构:将索引器构建为标准双编码器结构,仅使用标准检索训练框架独立完成训练,全程无需将庞大的主干模型加载至GPU内存。 我们证明这种"少即是多"范式能显著最大化服务效率,同时在依赖长期全局记忆的任务中充当有效的注意力降噪器。在主要长上下文评估套件(如LongBench-v2、LongMemEval和RULER)中,FM-DS-V4将平均物理KV缓存占用压缩至完整上下文基准的仅13.5%,同时持续保持或略微提升下游准确度(平均绝对增益+0.6%)。尤为关键的是,在极端500K规模下,FlashMemory将物理KV缓存开销抑制超过90%,且不破坏主干模型的核心推理能力。
空间推理是多模态大语言模型(MLLMs)感知并操作物理世界的基础能力。然而,现有基准主要依赖被动评估(如静态视觉问答)或特定模拟器的流程,未能全面评估通用交互式空间理解能力。我们提出了SpatialWorld——一个专为评估多模态智能体在复杂真实世界任务中交互式空间理解能力而设计的统一基准。该基准在共享的、与模拟器无关的协议下集成了八个异构模拟后端,包含760个经人工标注的任务,涵盖家庭日常、旅行、社交协作等多个领域。智能体必须在仅依赖视觉的部分可观测条件下解决问题,主动收集第一人称视角的视觉证据,并通过统一且原生适配多模态大语言模型的基于文本的动作接口表达决策。为确保评估可靠性,每个任务均包含经人工验证的初始状态、参考轨迹以及终止状态验证器。对15个先进智能体的评估表明,稳健的空间任务求解仍具挑战:最强模型GPT-5的平均任务成功率(TSR)仅为17.4%,领先的开源模型Qwen-3.5达到14.1%。进一步分析揭示了任务成功与执行效率之间的显著不匹配,以及领域间性能的大幅差异。这些在主动探索与长程规划方面的瓶颈,使SpatialWorld成为未来空间智能体的严谨测试平台。
我们研究了人类心理测量问卷是否可以作为可靠工具,用于描述和预测大语言模型(LLM)在日常用户交互中的行为。我们分析了八个开源LLM,通过比较两种不同方法得出的价值观和人格画像:一种是基于成熟问卷(PVQ-40/21和BFI-44/10)的李克特自评报告,另一种是对日常用户查询中带有价值观倾向的回答的生成概率。这两种画像存在显著差异。通常被视为LLM具有稳定倾向证据的构念内项目一致性,在生成概率中消失了。我们将这一差距归因于:成熟问卷项目中的显性词汇线索使模型能够识别目标构念,并做出与一致性相符、符合社会期望的反应,而真实的用户查询不提供此类线索。此外,人口统计角色提示使模型对问卷的回应产生与真实人类模式一致的偏移,但在对真实用户查询的回应生成概率中未出现此类偏移,这表明模型在模拟目标人群真实世界用户交互行为方面的能力有限。总体而言,我们的研究表明,人类心理测量问卷不足以预测LLM行为,并提示基于生成的画像是一种更准确的测量方法。
我们提出Echo-Memory,一项针对动作条件世界模型中记忆机制的受控研究。这类模型能够根据首帧、文本提示和相机动作序列生成多片段视频,但其核心失败往往在于记忆而非局部图像合成:当相机离开并返回时,场景或显著物体可能悄然发生变化。由于现有记忆设计的增益与骨干网络、训练、检索和评估差异相互纠缠,难以进行比较。Echo-Memory通过固定动作到视频的接口,仅改变生成器存储和读取历史的方式,在共享的视频扩散骨干网络、优化器、相机动作表示、采样器和评估流程下,比较了原始上下文、基于压缩的记忆、不同读出路径的空间摘要以及状态空间递归。这一匹配矩阵分离了四个通常被混淆的维度:容量、压缩、读出和递归。我们还通过三分支协议评估记忆:回放质量、域内循环重访和开放域返回探测。这些分支经常产生分歧,表明回放保真度不足以作为记住世界的代理指标。研究得出三点发现:原始上下文是一个强大的容量基线,其对开放域返回的提升远大于对回放指标的改善;紧凑性不能替代容量——激进的空间压缩和混合压缩记忆会丢失返回所需的显著证据;最后,块状状态空间递归是我们矩阵中最强的开放域返回机制,表明隐式记忆的结构与是否使用记忆同样重要。这些结果为研究动作世界模型中的记忆提供了超越孤立回放指标的紧凑协议。
长上下文语言模型推理受限于内存,因为KV缓存随上下文长度增长。最近的KV缓存压缩技术存在不足:要么大幅降低模型质量,要么需要大量时间和计算资源来压缩单个长提示。此外,许多方法要求输入长度不超过目标模型的上下文窗口,且通常与现代生产推理引擎不兼容。编码器-解码器压缩器将长词元序列映射为更短的潜在嵌入序列供解码器使用,理论上是一种有吸引力的替代方案。然而,现有方法在准确性与效率的权衡上无法与KV缓存压缩竞争。在本文中,我们重新审视了编码器-解码器压缩,并弥合了这一差距。我们首先进行架构搜索,从头预训练多种变体,以确定设计和训练编码器-解码器压缩器的最佳方式。根据研究结果,我们持续预训练了一系列0.6B编码器、4B解码器的模型,每个模型在超过350B词元上进行训练,压缩比分别为1:4、1:8和1:16。我们提出了潜在上下文语言模型(LCLMs),这是一系列压缩器,在通用任务性能、压缩速度和峰值内存使用方面改善了帕累托前沿。我们证明了LCLMs可作为长周期智能体的高效骨干网络,使智能体能够浏览压缩后的长上下文,并根据需要自适应地展开相关片段。
视觉语言模型(VLM)智能体正越来越多地部署在交互式游戏环境中。然而,用于VLM智能体的游戏基准测试通常仅报告每个(智能体,游戏)对的单次首次尝试得分,侧重于单人Solo模式,并且缺乏统一协议来公平评估异构智能体类别(商业VLM、开源权重VLM以及专用游戏策略)。我们通过OmniGameArena填补了这些空白——这是一个包含十二个基于虚幻引擎5新构建的游戏的实时基准测试,涵盖单人(7个)、玩家对战(3个)和合作(2个)模式,并配备统一动作接口;同时引入改进动态曲线(IDC)——一种智能体反思机制,其中使用工具的反思大语言模型能够跨多轮迭代自主优化有界技能提示。除冷启动排行榜得分外,IDC还为每个(智能体,游戏)对揭示两个额外可观测指标:得分随反思轮次的演变情况,以及学习到的技能在留出任务变体上的表现。我们报告了十二个VLM智能体在冷启动排行榜上的这些指标,以及四个顶级智能体在IDC框架下的表现。
线性激活引导因其简单且经验有效而逐渐流行,成为控制语言模型行为的一种方式。近期,球形引导范式被提出以克服加法干预的局限性,其动机常基于隐含状态范数不携带概念相关信息的假设。在本项工作中,我们通过一项旨在分离角度分量与径向分量作用的受控实证研究,重新审视了这一假设。我们发现,引导方法的主要差异在于它们如何耦合两种几何效应:改变token与概念方向的角度对齐,以及改变其隐含状态范数。在七个语言模型上的实验表明,概念主要表征于角度结构中,这支持了球形方法的动机,但范数对引导的稳定性及下游影响仍然至关重要。我们的结果解释了为何具有相似概念层面效果的干预会表现出不同行为,并建议激活引导应通过干预中可解释的角度分量与径向分量进行参数化,而非通过将这两种效应纠缠在一起的单一加法系数。
大语言模型代理越来越依赖于外部推理条件:提示(prompts)、工具(tools)、记忆(memory)、标准操作流程(SOPs)、技能(skills)以及平台反馈(harness feedback)。这些资产在不改变模型权重的情况下能够提升任务执行效果,但当前往往通过启发式反思或简单复用已观察到的成功与失败案例(仿佛仅凭计数就能构成可靠信念)来进行修订。我们提出Bayesian-Agent——一个原生且跨平台的框架,将可复用技能和标准操作流程视为关于冻结模型在特定提示、上下文和平台环境下能否成功的假设。Bayesian-Agent记录经验证的轨迹证据,维护每个技能基于特征条件化的类别后验概率,并将后验状态映射为可检查的操作,如修补(patch)、拆分(split)、压缩(compress)、退役(retire)和探索(explore)。面向模型的提示获得可执行的护栏和故障模式修补,而后验摘要信息则可供审计。基于deepseek-v4-flash,增量式修复将SOP-Bench从80%提升至95%,Lifelong AgentBench从90%提升至100%,RealFin-Bench从45%提升至65%。我们进一步评估了Bayesian-Agent的原生后端以及可选的GenericAgent、mini-swe-agent和Claude Code后端。结果涵盖正向、负向、饱和及案例研究场景,表明代理技能进化应被视为后验引导的平台优化,而非未经校准的提示累积。源代码可在https://github.com/DataArcTech/Bayesian-Agent获取。
实时视频恢复(VR)在直播场景中需在严格的逐帧延迟约束下输出高分辨率结果。现有基于一步扩散模型的视频恢复方法因两大瓶颈难以部署于消费级GPU:高分辨率下的二次方空间注意力机制,以及大型视频自编码器带来的延迟-显存开销。本文提出SwiftVR——一种基于因果分块协议的流式一步生成式视频恢复框架,能够同时缓解上述两个瓶颈。在注意力机制方面,无掩码移位窗口自注意力通过确定性索引将每个空间窗口汇聚为密集张量,使得所有注意力计算均采用密集缩放点积注意力路径,无需掩码、循环移位、填充或硬件专用稀疏内核。由于SwiftVR仅依赖标准密集缩放点积注意力调用,训练后的模型无需重新训练或定制内核即可迁移至消费级GPU。在自编码方面,轻量级恢复感知自编码器在保证重建质量的同时实现快速分块解码。在单块H100上,SwiftVR在2560×1440分辨率下维持31帧/秒,在3840×2160分辨率下达到14帧/秒,而所有对比的扩散模型基线在4K分辨率下均超出显存限制。在消费级RTX 5090上,SwiftVR在1920×1080分辨率下达到26帧/秒。据我们所知,SwiftVR是首个在消费级GPU上实现实时1080p流式处理的生成式视频恢复模型,同时以更低推理成本取得出色的无参考感知质量。项目地址:https://h-oliday.github.io/SwiftVR
世界-动作模型已成为机器人操作领域一种前景广阔的范式,通过联合建模视觉场景动态与动作,将物理先验注入策略学习。然而,现有世界-动作模型将世界预测与动作执行耦合在同一时间分辨率下,迫使世界分支对短期帧变化进行建模,而这些变化往往冗余且信息量有限。我们认为,严格将世界预测与动作执行绑定在同一时间节奏中,可能未能充分释放视频分支在具身控制中的潜力。为此,我们提出AHA-WAM(异步视界自适应世界-动作模型),该模型基于双扩散Transformer(DiT)架构,围绕这一时间非对称性重构世界-动作建模。AHA-WAM将视频DiT实例化为低频世界规划器,维护过往观测的滚动键值记忆,并暴露可复用的层级潜上下文以编码长视界场景演化;同时,高频动作DiT通过层级联合注意力查询该上下文,以闭环方式执行短动作块。为支持异步执行,我们引入了视界自适应偏移训练与观测引导的视频上下文路由(OVCR),二者协同使动作专家既能利用长视界世界上下文,又能保持对实时执行状态的响应,且无需重新运行视频DiT。在RoboTwin和真实世界操作任务上的实验表明,AHA-WAM无需任何机器人数据预训练即达到最先进性能:在RoboTwin上平均成功率达92.80%,在4个真实任务上成功率达78.3%,同时实现24.17Hz的闭环控制速度,较Fast-WAM加速4.59倍。
Whisper作为广泛使用的自动语音识别模型,已知存在生成幻觉的问题——对非语音音频生成与输入完全无关的连贯转录文本。我们探究能否通过Whisper的内部表征检测并缓解这种幻觉现象。通过提取音频编码器激活值,我们评估了两种表征空间:原始Whisper激活值和稀疏自编码器(SAE)潜在特征。研究表明,这两个空间均编码了线性可分的幻觉相关信息,其判别能力集中在稀疏特征子集中,并随编码器层数加深而增强。我们提出两种引导策略:激活空间引导与SAE潜在空间引导。基于SAE的引导策略在完整非语音测试集上,将Whisper small的幻觉率从72.63%降至14.11%,Whisper large-v3的幻觉率从86.88%降至27.33%,同时语音数据上的词错误率仅小幅退化,性能接近基于微调的方法。
我们提出DEI:进化推理中的多样性(Diversity in Evolutionary Inference),这是一个分布式质量多样性(QD)搜索框架,它将异构的大型语言模型(LLM)作为变异算子,分配到通过非阻塞集合操作通信的对等节点上。与同质并行搜索(将单一模型的归纳偏差复制到所有工作节点)不同,DEI将每个LLM独特的创造性先验视为行为新颖性的互补来源。通过将DEI扩展到数字红皇后框架,节点在每轮结束时共享局部最优解,以播种下一轮种群。这创造了跨模型的对抗压力,驱动了超越模型内自对弈的鲁棒性。在Core War领域(一个竞争性编程基准,其中Redcode战士程序在模拟机器中战斗)上评估,一个四节点异构集成(GPT-5.4-mini、Claude Sonnet 4.6、GPT-5.2和Claude Haiku 4.5)在相等的总LLM调用预算下,相比单节点基线,实现了124%更高的合并存档QD分数(45.90 vs 20.46)和28%更高的覆盖率(80.6% vs 63.0%的单元格)。异构集成还在QD分数、覆盖率和所有四个模型家族的保留解泛化性上优于同等预算的同质集成。这些结果提供了首个经验证据,表明模型多样性(而不仅仅是并行性)是分布式基于LLM的QD搜索中增益的关键驱动因素。
奖励模型(RMs)为大语言模型的后训练过程提供了关键反馈信号,尤其在强化微调(RFT)和强化学习(RL)流程中作用显著。然而,当前的奖励评估依赖于诸如基于规则的验证器、真实值参考、程序化检查清单以及复杂评分准则等异质标准,而统一集成所有类型证据的机制尚未得到探索。为此,我们提出技能奖励模型(Skill-RM),这是一种将奖励建模重构为可复用奖励评估技能执行过程的统一框架。通过将奖励计算视为结构化智能体任务,Skill-RM提供了统一接口来编排异质资源,针对每个输入的特定需求动态选择并聚合证据。该方法使奖励模型突破静态评估限制,确保不同任务间的一致性与透明度。在奖励基准测试及下游应用(包括最优N选与强化学习)上的广泛实验表明,Skill-RM持续优于传统评判基座模型。研究结果表明,Skill-RM不仅为奖励建模提供了统一解决方案,还通过策略性动态编排证据实现了更优性能。代码地址:https://github.com/Qwen-Applications/Skill-RM。
尽管全模态大语言模型(OLLMs)在联合处理音频和视频流方面展现了令人印象深刻的能力,但它们严格遵循复杂、多层面用户指令的能力仍尚未得到充分探索。现有基准主要关注整体视频理解或纯文本指令遵循,未能捕捉模态与用户约束之间的复杂交互。为填补这一空白,我们提出了OmniCap-IF,这是首个专门设计用于评估全模态字幕生成中指令遵循能力的综合性基准。OmniCap-IF采用系统化框架,从格式正确性和内容正确性两个维度评估字幕。我们的基准涵盖纯视觉、纯音频和音视频模态中的50种不同约束类型,同时集成时间定位以评估时空精度。对1920个高质量样本上代表性模型的广泛评估揭示了显著的性能差异。此外,我们的分析发现了一个关键的“格式-内容权衡”,表明增加格式复杂度会直接降低模型的全模态推理能力。最后,为推动该领域发展,我们整理了一个54K指令调优数据集OmniCap-IF-54K,并提出了OmniCaptioner-IF模型,该模型在复杂指令遵循和通用全模态字幕生成性能上均取得了显著提升。
Muon在大型语言模型训练中的效率约为Adam的两倍,但其局部几何优势来源尚不明确。我们的研究首次从曲率视角尝试揭示Muon优于Adam的原因。首先,我们对训练损失景观进行二阶泰勒近似,发现在验证损失相同时,Muon单步损失降幅大于Adam。两类优化器的一阶增益相当,但Muon始终承受更小的二阶曲率惩罚。其次,我们将曲率惩罚分解为更新范数平方与归一化方向锐度(NDS)。研究发现Muon与Adam的更新范数相近,因此Muon更小的曲率惩罚源于更低的NDS而非更新幅度。第三,我们探究训练数据与模型结构如何塑造Muon的NDS优势。通过使用具有可控不平衡性的齐夫-概率上下文无关文法(PCFG)数据,我们发现数据不平衡会放大Muon相对于Adam的NDS优势。层内/层间分解进一步表明,在训练中后期,Muon更低的NDS主要得益于更小的层内曲率。除实证证据外,我们还分析了具有异质曲率且梯度向高曲率模式对齐的典型二次问题,并证明Muon通过跨曲率组平衡更新能量,实现了比梯度下降更小的平均NDS;当曲率异质性足够强时,相同迭代步数下也能获得更低的局部二次损失。
深度研究智能体在复杂信息检索任务中展现了卓越能力,但这种能力也伴随着高昂的计算成本。受准确性优先的训练范式驱动,当前模型采用暴力策略,表现为盲目依赖工具和表演性推理——生成长而冗余的轨迹,这些轨迹与解决任务所需相去甚远,导致无效的工具调用和过度的令牌消耗。为克服这一效率陷阱,我们提出SlimSearcher,这是一个原则性框架,在监督微调(SFT)和强化学习(RL)两个阶段同时推动准确性与计算成本之间的帕累托边界。在SFT阶段,SlimSearcher采用帕累托高效过滤法,筛选出既成功又经济的轨迹,引导模型形成内在的效率感知搜索行为。在RL阶段,我们引入自适应奖励门控,这是一种动态奖励塑造机制,在采样组内评估工具和令牌的相对效率。通过将这些自适应效率指标与严格正确性门控级联,我们的方法有效避免了与绝对惩罚相关的简洁性偏差,并缓解了奖励破解问题。在GAIA、BrowseComp和XBenchDeepSearch等长周期基准上的广泛实验表明,SlimSearcher在保持或提升准确性的同时,将平均工具调用轮次减少了17%至58%。
基于语音的大语言模型通常局限于生成口语回复,这使得其面向用户的输出仅限于可被口头表达的内容,并压制了文本原生能力,例如代码生成、结构化分析以及需要持久、可检查和可追踪的中间输出的实时交互中的多步推理。现有工作改进了口语推理或全双工轮换机制,但仍将文本视为隐藏的中间状态或从属模态,而非第一类输出通道。我们提出了听-写-说(LWS)这一以文本为先的三通道范式,其中单一的自回归大语言模型持续监听用户语音,将可见的自由格式文本作为其主要输出,并在共享的因果注意力上下文下并行生成实时口语回复。这一行为完全通过令牌模式实现,无需修改架构,并通过两阶段数据流水线学习,该流水线合成与已揭示输入时间线一致的每秒认知标注。实验证明,LWS在全双工基准测试(Full-Duplex-Bench)上展现出强大的全双工交互能力,在VoiceBench AlpacaEval上达到4.72分,写作-口语一致性达92.6%,并在URO-Bench上持续优于其内部消融版本。这些结果表明,可见的写作可以作为语音交互的第一类输出通道,且无需牺牲实时响应性。代码与数据集可在项目页面获取:https://royalzhang.com/project/lws-page/。
基于可验证奖励的强化学习(RLVR)已成为通过基于结果的监督提升大语言模型推理能力的主流范式。然而,可验证奖励常在群体层面上变得信息量不足:当针对同一提示的所有采样推理路径获得相同奖励时,组间相对优势估计无法提供梯度信号,尽管这些推理路径的推理质量可能差异显著。为此,我们提出推理竞技场(Reasoning Arena),一种自适应训练框架,它将这类无差异奖励组引导至裁判系统而非直接丢弃。该框架不仅检查最终答案,还构建推理路径锦标赛,通过让推理路径进行两两比较来揭示组内更细粒度的偏好,从而将推理质量转化为丰富的相对奖励信号。为了高效地进行奖励估计,我们避免穷举所有路径对,而是将每条新生成的推理路径与一个动态更新的小型锚点池(由先前路径组成)进行比较,以高效建立相对排名。随后,我们在不完全比较图上拟合Bradley-Terry模型,实现无需二次型成对比较的可扩展强化学习集成。实验结果表明,在竞赛数学与编程基准测试中,推理竞技场平均比RLVR基线高出7.6%。通过将原本无用的零优势样本转化为有效梯度更新,我们的方法将训练速度提升27%至41%,节省近50%的生成计算量,并显著提升整体推理性能。
世界行动模型(WAMs)通过将未来预测作为额外训练目标来扩展机器人策略学习,促使策略在其表征中编码与任务相关的时间结构。现有WAMs通常依赖大规模生成架构,导致训练成本高、推理延迟大,难以作为高效的闭环策略部署。我们提出Light-WAM,一种轻量级世界行动模型,专用于高效机器人操作。具体而言,它以紧凑视频骨干网络为基础,在降采样后的隐空间中进行未来视频监督,从而降低视频协同训练的成本,同时保留其在表征学习中的优势。在动作预测方面,Light-WAM引入状态融合动作专家(StateFusionActionExpert),该模块从多个骨干网络层读取适应性状态,通过学得的查询池化进行融合,并在单次前向传播中直接预测动作序列。这一设计为视频骨干表征与机器人动作之间提供了高效接口,避免了笨重的生成式动作专家。实验表明,Light-WAM在LIBERO上保持强劲性能,在RoboTwin 2.0上实现了可用的多任务性能,而仅使用0.44B可训练参数。其推理延迟仅为72.03毫秒,峰值GPU内存4.1GiB,训练吞吐量也有所提升。
检索增强型问答流水线通常将检索到的段落先经过大语言模型重写器处理,再送入较小的阅读器,从而在多跳基准上将F1分数提升数十个百分点;这一提升通常归因于证据质量的改善。我们通过一项受控干预审计提出疑问:这一提升是否因果性地由重写上下文中出现正确答案字符串所驱动,而非由精炼本身驱动。针对每个重写上下文,我们对编译输出进行四种受控编辑后重新运行阅读器:移除正确答案片段、替换一个长度匹配的随机非答案片段(安慰剂)、或将正确答案注入原本缺失该答案的重写中(分别置于前缀位置或中间句子边界处)。在跨三个阅读器族(Qwen2.5-7B、Qwen3.5-35B、GLM-4.7)、两个数据集(HotpotQA、2WikiMultihopQA)及三种编译配置(仅MA、仅MB、MA+验证)的十二组已完成的(单元、基线)干预运行中,在配对答案编译层级上,移除正确答案导致阅读器F1下降幅度比长度匹配的安慰剂多出28至64个百分点;而在原本缺失正确答案的重写中,将正确答案前置注入使得12组(单元、基线)组合中有10组的F1提升+0.7至+9.7个百分点。一项伴随的五哨兵审计表明,传统的单[MASK]探针本身对哨兵敏感:在2Wiki上,该探针报告了+4.12 F1的“无泄漏残差”,但在四种替代哨兵下翻转至-3.33至-7.81 F1,且其中三种哨兵未通过等价性检验(四种中仅一种通过)。我们并未提出新的重写器或缓解方法;我们发布干预运行器及哨兵面板,以便其他重写器增益声明能够通过相同的标准进行检验。
深度研究(Deep Research, DR)作为一种新兴的智能体范式,旨在应对复杂、开放性的研究任务,要求系统能够迭代式地定义问题、获取证据、验证来源,并生成长篇研究报告。然而,在实际应用中,当前DR系统受到四个相互关联的局限:在范围未明确定义的情况下的长周期规划、单一智能体内任务分解与调度的瓶颈、长文本合成中的幻觉风险,以及有限的过程可审计性。本技术报告提出了基于千帆智能体构建平台(Qianfan Agent Foundry)的多智能体DR框架——DuMate-DeepResearch。该框架将负责任务理解、规划与调度的智能体核心(Agent Core)与可扩展的工具生态系统(Tool Ecosystem)解耦,后者负责检索、证据获取及报告渲染,使每个中间决策和工具调用均可显式追溯。在此基础设施之上,DuMate-DeepResearch进一步引入三种机制:(i)基于图的动态规划策略,以由粗到细的方式扩展研究路线图,并通过反思、重规划、回溯及并行分支持续修正;(ii)递归两级执行设计,将每个复杂搜索子任务委托给内部搜索智能体(Search Agent),由其自行执行规划循环,从而隔离噪声检索并稳定长周期执行;(iii)基于评估准则的测试时优化机制,动态生成任务特定的质量标准,并将其作为实时推理支架,用于基于证据的综合与自适应停止。在两个深度研究基准测试中,DuMate-DeepResearch均取得了新的最优结果:在DeepResearch Bench上取得最高综合得分(58.03%),在DeepResearch Bench II上取得最高综合得分(61.95%),同时在信息召回与分析维度排名第一。
文本到图像模型依赖文本提示作为其主要的人类意图接口。提示通过文本编码器编码为嵌入向量,从而对图像生成过程施加条件。除了单个标记的含义外,文本嵌入还编码了整个提示中的上下文信息,例如组合性和属性绑定。然而,图像模型是否真正利用了这些更丰富的信息仍未被充分探索。在此,我们探讨的问题是:文本表示的哪些方面对图像生成至关重要?我们证明,基于扩散变换器的文本到图像模型通常仅依赖于文本表示中两个相对直接的方面:(i) 将相邻标记合并为单词表示(适用于跨多个标记的单词),以及 (ii) 单词顺序,该顺序由文本编码器的位置嵌入印刻。为了证明这一点,我们构建了一种新的文本嵌入,它仅编码单个单词的含义和顺序,但缺乏关于整个提示的任何上下文信息。我们发现,这种带有位置标记的词袋表示足以成功引导图像生成,其视觉质量和文本忠实度与完整文本嵌入引导的生成相当。这表明,与普遍看法相反,文本到图像模型通常并不使用文本嵌入中超出单个单词含义和单词顺序之外的丰富信息。相反,复杂语言结构的解码是由图像模型本身完成的。项目网页:https://nsping13.github.io/contextless-TTI/
视觉-语言-动作(VLA)模型正成为机器人操作领域的一种有前景的范式,使得从海量演示数据和动作标签中训练通用策略成为可能。然而,将这些模型适配到新任务通常仍需任务特定的演示、动作标注及额外微调,导致部署成本高昂且难以规模化扩展。 我们提出WIZARD,一种基于权重空间的元学习框架,通过为冻结的VLA策略生成任务特定的LoRA参数,规避了任务特定微调。仅需一条语言指令和一段简短演示视频,WIZARD即可在单次前向传播中预测相应的适配权重,无需目标任务动作标签或测试期优化。在元训练阶段,WIZARD学习将任务证据直接映射为专家级LoRA更新,从而在权重空间中捕捉任务间的关联关系。 在LIBERO基准上的实验表明,WIZARD在未见数据集集合上的性能提升最高达约2倍,在未见任务上最高达约14倍。在Franka Emika Panda机器人上的实验进一步证实,WIZARD在真实域适配基线上持续取得改进,证明生成的适配器能够提供超越仿真场景的任务级专业化能力。
在线策略蒸馏(OPD)已成为大型语言模型(LLMs)后训练阶段的核心技术,它在学生模型自身轨迹生成过程中提供密集的逐令牌教师监督。在本文中,我们识别出OPD背后一种常见的结构性问题,并将其称为前缀失败。在前缀失败下,密集的逐令牌监督会引发双峰教师混合和碎片化梯度,而令牌级损失截断或重新加权等方法无法解决这一问题。这一观察促使我们超越令牌级损失干预,转向轨迹级输出修正。因此,我们提出轨迹精炼蒸馏(TRD),一种轨迹级修正方法,它在保持在线策略支持的前提下,根据教师指导修正学生模型的生成轨迹。通过在蒸馏前修正有问题的前缀,TRD从根源上缓解前缀失败。此外,即使原始轨迹已经正确,TRD也能通过让学生在教师指导下接触替代的有效推导路径来提升探索能力。TRD同样适用于在线策略自蒸馏(OPSD)——一种教师模型为带有特权信息条件的学生模型的参数共享变体。在多种基准测试和不同规模的基座模型上,TRD持续优于先前基线,提高了单次尝试的准确性并拓宽了推理覆盖范围。代码已开源:https://github.com/louieworth/trd
基于可验证奖励的强化学习已迅速推进了视觉-语言模型的推理能力。然而,对于胸部X光报告生成任务而言,标准奖励(即精确匹配准确率和逐步过程)并不适用,因为这类报告由无序且正交的发现组成,而非因果推理链。我们通过基于集合的视角解决了这一问题:将每份报告分割为句子,并由冻结的句子变换器进行嵌入,从而得到无序的嵌入集合。我们提出将生成嵌入与参考嵌入之间的集合到集合距离作为连续的、具有置换不变性的奖励。在两个数据集和三种视觉-语言模型(Qwen3-VL-2B/4B、Gemma3-4B)上,采用基于集合到集合距离奖励的GRPO进行后训练,在所有主要指标(BERTScore、RadGraph F1和CheXbert F1)上均持续优于监督微调和精确匹配GRPO(相对改进平均分别为6.80%、7.82%和4.45%)。相同的集合距离还可用于测试时的最佳N选:根据候选嵌入与训练报告嵌入的距离进行评分,在我们的训练模型以及三种闭源大语言模型(Mistral-Small、Gemini-2.5 Flash-Lite、GPT-4o-mini)上,该方法的性能优于随机选择,BERTScore平均相对改进16.4%。作为流信号使用时,这些距离支持一种更高效的测试时扩展形式:在生成过程中剪枝低分候选,可减少超过50%的生成token,同时保持与完整最佳N选相当的发现质量。这些结果共同确立了集合距离奖励作为胸部X光报告生成中后训练与测试时扩展的统一信号。我们的代码已公开:https://anonymous.4open.science/r/Set-Distance-Rewards-CXR-BFDA
视觉Transformer基于固定的块网格运行,这可能在密集预测中引入相位依赖性不稳定性:改变块划分会改变像素可用的token证据,尤其是在边界附近。我们将块网格相位形式化为一个干扰变量,并提出相位边缘化(Phase Marginalization),这是一种事后边缘化方法,它评估结构化的块网格相位,反向对齐密集输出,并在原始图像坐标系中聚合这些输出。其核心变体——均匀相位边缘化(K=4)无需训练,且在测量的分割、深度和局部匹配设置中均优于经典的K=1基线。在受控的Cityscapes实验中,均匀相位边缘化相对于基于通用平移的四次前向测试时增强(TTA)方法,在计算量相当的情况下带来了适度优势(比最强测试通用行的平均交并比高出0.31)。进一步的规模研究表明,K=4是一种实用的成本-精度权衡:K=8时性能基本不变,而K=16时精度提升甚微但延迟大幅增加。这些结果表明,块网格相位是一个可测量的干扰变量,而相位边缘化则是一种用于密集ViT预测的简单诊断和事后边缘化基线方法。
训练视觉语言网络代理的多步强化学习计算量巨大,主要存在两种效率瓶颈:同步强化学习中的GPU空闲问题,以及轨迹消耗过多步骤和token的问题。我们提出AsyncWebRL来同时应对这两个挑战。在系统层面,异步设计使轨迹生成、梯度更新和策略刷新在迭代间重叠,配合两项针对网络代理的改进——即永续轨迹池和轻量化截图处理——相比此前最快的开源同步流水线(WebGym),端到端训练吞吐量最高提升2.9倍。在算法层面,我们发现多步GRPO中的每轨迹归一化因子1/|τ_i|是导致轨迹级和token级低效的根本原因:由于失败轨迹系统性地长于成功轨迹,该因子弱化了失败token的负梯度,导致策略持续生成冗余的记忆模式。将1/|τ_i|替换为常数1/k可打破这种耦合,在保持聚合成功率的同时缩短轨迹长度。这些贡献在WebGym的分布外测试集上创下了新的开源最优水平(较之前42.9%的最佳结果相对提升5.8%),且在较难子集上提升最大(中等难度相对提升42%,高难度相对提升48%)。
弱到强泛化研究的是在可靠标签稀缺的情况下,如何利用较弱教师模型的监督来提升较强学生模型的能力。我们将此主要视为一个数据选择问题,其核心挑战在于识别哪些弱标签足够可靠,能够作为训练信号。为此,我们引入了信任函数,为每个弱标签分配一个标量信任分数,并利用这些分数筛选弱监督。在多个领域,包括世界知识、定量推理和策略游戏中,信任过滤生成的学生模型能够匹配甚至超越真实监督,实现近乎无损的弱到强泛化。此外,信任函数还支持迭代的弱到强链,通过训练学生模型并重复使用其作为下一阶段的教师模型,从而放大收益。信任函数的优势可归因于多种机制。
思维链(Chain-of-Thought, CoT)提升了大型语言模型(LLMs)的性能,并已扩展至多模态大语言模型(MLLMs)。近期研究进一步从基于文本的多模态推理转向交错模态推理,其中间步骤可同时包含文本理据与视觉证据。在本工作中,我们提出一个更大胆且更具雄心的设想:图像能否独立作为语言任务与多模态任务的推理媒介?为探索此问题,我们提出光学推理(optical reasoning),将图像视为独立的推理媒介。我们通过两种变体实例化这一概念:基于排印的光学推理(typographic-based optical reasoning),通过优化视觉布局以实现紧凑的理据渲染;以及基于图形的光学推理(graphical-based optical reasoning),将文本与图形元素组合成结构化的视觉理据。在数学、科学及交错模态推理基准测试中,光学推理可匹配甚至超越传统文本推理,同时在语言任务上平均减少28.57%的推理令牌,在多模态任务上减少16%,实现文本推理1.96倍的令牌效率。这些结果表明,图像能够有效且高效地编码理据,同时为推理提供统一的视觉画布。
近年来,基于视频的世界模型使像素级环境在相机层面具备了交互性:用户可自由调整视角,模型则同步生成连贯的视觉延续。然而,其动作空间仍不完整——用户虽能控制相机,却无法对单个物体施以操作。由于真实世界的交互本质上是物体中心的,这类模型更像是被动的场景观察者,而非真正可操作的虚拟环境。我们提出WorldCraft框架,将交互式视频世界模型从相机导航扩展至物体级轨迹动作。给定用户点击和手绘路径后,WorldCraft可生成未来帧,使选定物体沿预定轨迹运动,同时相机继续自由探索场景。该框架通过轨迹中心控制管线实现:首先,归一化世界轨迹(NWT)以相机无关的世界坐标系表征用户绘制的运动,并动态将其重投影至当前相机位姿,从而分离物体运动与相机引发的屏幕空间位移;随后,空间路径LoRA(SP-LoRA)将此世界空间信号注入模型的空间控制通路,在保留预训练相机控制器能力的同时新增物体操控功能;最后,轨迹锚定状态持久化(TASP)将世界轨迹视为持久空间状态,在轨迹条件生成后刷新自回归记忆,使移出相机视野的物体在重新出现时仍处于更新后的位置。实验表明,WorldCraft能实现精确的物体控制,在仅使用相机评估时保持基于视频的世界模型的相机保真度,并能在长程自回归推理及物体短暂离屏的情况下维持物体状态一致性。
AI评估结果虽然大规模产生,但在排行榜、模型卡、基准测试论文和公司博客等各类渠道中的报告方式却不一致。这带来了解读上的困难:读者无法可靠地跨来源比较结果,难以识别报告省略了哪些内容,也无法将汇总性声明追溯至其底层证据。近期的研究尝试应对了部分孤立问题,但仍存在三大缺口:它们仅覆盖评估生命周期中的狭小片段,无法整合为单一的、可解读的记录;它们规定了静态的呈现方式,无法区分不同利益相关者对同一证据提出的不同问题;它们仍停留在纸面提案层面,缺乏大规模采用所需的提取基础设施。我们提出了一种可操作化的报告层,将基准元数据、评估运行数据和模型元数据整合为统一的记录。我们(1)基于对52篇论文的结构化审查和10次利益相关者访谈,推导出一个报告模式;(2)实现了四种解读信号(可再现性、文档完整性、来源与风险、分数可比性),并通过面向研究与非研究受众校准的读者模式进行呈现;(3)部署了一个监控工具,将该报告层应用于5816个模型、635个基准测试和101843个结果,揭示了当前报告实践中的系统性缺口。
提示注入检测器是异构的:每个检测器在不同攻击类型上各有优势,但没有一个始终可靠。然而,现有系统仍将检测视为固定的单检测器流水线,将每个请求交到某个检测器的盲区中。我们将防御重新定义为检测器分配:给定一个异构检测器池,针对每个请求决定运行哪些检测器,以及是否升级到LLM评判器。我们的框架SCOUT(可扩展且可控的结果预测,用于不确定性感知分流)通过预测每个检测器在类似历史输入上的样本级可靠性和延迟,使这一决策变得动态化,并向操作员暴露一个单一的安全-效用阈值(其中效用综合了良性通过率和实际耗时)。为评估这一场景,我们构建了SCOUT-450基准,该基准涵盖了旧版提示注入集所不足的、结构复杂的面向智能体的注入。在SCOUT-450上,与始终开启的GPT-4o评判器相比,一个面向安全的操作点将攻击成功率降低了46%,总实际耗时降低了40%,同时良性效用仅下降5.1个百分点。SCOUT还能迁移到三个外部基准(BIPIA、IPI和IHEval),改善了安全-效用前沿。
智能体基准测试通过结果验证器对提交内容进行评分,这些验证器通常手工编写且脆弱,容易遭受奖励篡改攻击。我们对五个终端智能体基准测试中的1,968个任务进行审计,发现其中323个(16%)仅凭任务描述即可被前沿模型破解。这不仅破坏了排行榜排名,还污染了强化学习训练信号,然而标准做法仍是手动且被动的应对。 我们提出了一种名为"攻防循环"的方法,用于构建抗攻击验证器,无需针对每个任务进行手动修补。该循环交替使用三个大语言模型智能体:攻击者尝试在不完成任务的情况下通过验证器,修复者对验证器进行修补以拒绝每个已发现的漏洞,求解者则确认修补后的验证器仍能接受合法解决方案。该循环迭代运行:每次修补都会重新定义验证器的奖励机制,从而暴露下一个漏洞。我们进一步添加了验证器访问权限,并允许修补在不同任务间迁移,以扩展循环所能发现的漏洞范围。 在KernelBench上,该循环将已公开报告的漏洞语料库中的攻击成功率从62%降至0%。我们还发现,循环中较弱的智能体能够抵御更强的攻击者:Gemini 3 Flash的循环使更强的Gemini 3.1 Pro和Claude Opus 4.7在KernelBench上的攻击成功率分别从76%和61%降至0%;而在Terminal Bench的77个任务中,Gemini 3.1 Pro的攻击成功率从39%降至17%。我们发布了Terminal Wrench(323个可破解环境,3,632条攻击轨迹),作为当前攻击面的快照,同时公开了我们的修补后验证器、循环发现的漏洞以及实现代码,作为未来工作的基础。
现有科学关系抽取基准主要针对计算机科学等领域,其中实体类型涵盖任务、方法、数据集、材料或指标。这导致在以变量为导向的经验性学科(如心理学)中存在空白——该类学科的研究成果通常以构念、测量、干预和结果之间的关系形式呈现。为此,我们提出以变量为中心的实证图抽取任务,旨在将科学摘要映射为类型化图结构,其中节点为标准化变量,边表示经验关系与层次关系。为支撑该任务,我们构建了EmpiriGraph-Psy基准数据集,包含210篇心理学摘要,由领域训练标注者完成标准化变量、概念层次、经验关系类型及验证状态的标注。我们采用直接抽取方法与分阶段图构建流程(将变量抽取、标准化、层次构建、证据选择、关系抽取与边验证相分离)对前沿及开放权重的大语言模型进行评估。分阶段流程显著优于直接抽取,最优配置的宏F1值达到0.74。错误分析表明,调节关系与概念层次仍是最具挑战性的案例,凸显了从科学摘要中提取高阶经验主张与隐式抽象结构的难度。
理解生成模型从训练数据中保留了哪些内容仍然是一个挑战,这涉及版权和隐私问题。除了逐字复述外,模型还可能编码训练数据中更细微的痕迹,这些痕迹虽然不会在输出中显现,但仍可被利用。我们针对当前在生成系统中日益广泛使用的修正流(Rectified Flows)研究这一现象。我们分析了定义修正流训练过程的插值路径 X_λ= (1-λ)X_0 + λX_1,发现训练数据与测试数据的重建差异存在一个随λ变化的钟形曲线缺口,该缺口在训练过程中累积,而验证指标保持稳定。该信号存在一个最大值,我们在高斯假设下推导出该最大值位置的闭式解。我们在音频和图像上验证了这些预测,表明钟形结构具有普适性,而峰值预测在满足假设条件时成立。作为概念验证,我们利用这种特定的λ解析结构进行了成员推断攻击(Membership Inference Attack),成功区分训练集成员与非成员。
医疗代理系统正日益被期望支持交互式临床决策,而不仅仅是静态的问答。在此类场景中,有效的代理必须能够在不断演变的病例中复用先前的经验,然而现有的记忆机制往往保留原始的记录轨迹,这些轨迹冗余、嘈杂且难以管控。更重要的是,它们很少区分哪些记忆对未来推理真正有用。这限制了它们为长期临床推理积累紧凑且可靠经验的能力。为弥补这一差距,我们提出了SkeMex——一种部署后的自我进化框架,通过基于技能的记忆(无需更新模型权重)来改进医疗代理。SkeMex将信息丰富的交互轨迹提炼为结构化技能,编码可复用的程序性知识,并将其组织成一个多分支存储库,涵盖通用经验、任务特定经验和动作级经验。为确定哪些记忆应被复用和保留,SkeMex根据环境反馈估计上下文相关的效用,并以此指导价值感知的检索和存储库治理。一个闭环的“读取-写入-评估-治理”生命周期通过写入新技能、更新效用值、推广有用记忆和移除有害条目,进一步支持持续进化。跨多种临床任务的实验表明,SkeMex在离线和在线场景中均持续优于代表性的基于记忆的代理。它还能在不同模型主干上泛化,并支持可迁移的技能记忆。所有数据和代码将公开发布。
我们提出了SigmaScale,一种学习辅助缩放矩阵S的方法,以辅助基于截断奇异值分解(SVD)的大语言模型(LLM)压缩。与解析推导缩放矩阵不同,SigmaScale在激活感知压缩损失下优化两组向量,这两组向量定义了对角行和列缩放变换。我们表明,学习到的缩放降低了权重矩阵的有效本征秩,这体现在有效秩熵的减少,且这种减少与压缩损失高度相关。在Llama 3.1 8B Instruct和Qwen3-8B上的实验显示,SigmaScale在困惑度和零样本基准测试上与紧密相关的最先进SVD压缩方法具有竞争力。通过使用学习到的激活感知变换,SigmaScale探索了一条更灵活的低秩LLM压缩路径,能够适应单个模型权重的结构。特定任务中观察到的优势使我们的方法成为需要降低LLM推理计算成本的应用的可行选择。
大型语言模型日益依赖其他模型进行评估,这引发了一个自然问题:模型能否预测评判者将如何评价其自身输出?我们发现,这种能力在针对性训练之前就已普遍存在:通过少样本提示,基础模型在三个基准测试中,已经能以远高于随机水平的准确率,预测外部评判者对开放式回答的多属性质量评分。我们提出了自我评估引导(Self-Evaluation Elicitation, SEE)方法,通过一个短周期来唤醒这种潜在能力,该周期包含一个结合校准的强化学习阶段(用于改进回答并预测评判者),以及一个掩码蒸馏阶段(在保持回答不变的同时提升预测精度)。仅使用160个独立示例(约为强化学习基线数据量的31分之一),SEE在三个基准测试中提升了留出校准效果,同时保持了回答质量。所引导出的自我评估能力精准地定位于模型自身的词元分布之内,并且在从未训练过的评判者面前保持稳定,这表明其体现了一种可迁移的质量概念,而非针对单个评判者的偏好。这些结果将面向评判者的自我评估重新定义为引导问题而非获取问题。
潜在视觉推理(LVR)在视觉语言模型(VLM)的感知与答案生成之间插入有监督的潜在标记。该领域通过计算这些潜在标记与其视觉目标之间的对齐程度(即余弦相似度或均方误差)作为训练损失和质量指标,假设更好的对齐能带来更优的答案。我们针对五种LVR变体构建了系统化的测试矩阵,发现这一假设与实际结果相反:在所有五种变体中,余弦对齐度与准确率呈负相关(r=-0.94)。为解释这一现象,我们提出了PRISM——一组推理时诊断工具:线性探测(用于判断答案在何处可被解码)和破坏性测试(用于判断潜在标记是否承担关键负载)。结果表明,这些有监督的潜在标记在很大程度上被绕过了,破坏它们对准确率的影响最多仅为四个百分点。答案可在潜在标记的下游而非其本身解码,且这一可解码性差距的大小能够预测每种变体在扰动条件下对潜在标记的依赖程度。与损失函数的信息瓶颈解读一致,这一辅助目标通过共享参数重塑了语言模型,而非通过其名义上优化的潜在变量来实现。
标准Transformer在每一层和每一个token上统一应用自注意力机制,无论输入是否需要动态的跨token交互。我们提出CHIAR-Former(明暗注意力),一种4层混合Transformer,它基于每个token的谱熵(一种理论上有依据的复杂度信号)将每个token路由至三种算子之一:DCT谱混合、RBF核混合或全自注意力。通过在WikiText-103上的系统性消融实验,我们发现了路由坍塌现象:路由器一致地拒绝RBF,而倾向于DCT和注意力,这表明谱混合与动态注意力是互补且充分的。专门设计的DCT+注意力变体在WikiText-103上达到了Val PPL 36.54——相比全注意力基线(PPL 66.62)提升了45%,同时减少了62.5%的注意力FLOPs。我们将评估扩展到WikiText-2、IMDB情感分类以及合成型ListOps操作,明确了有效的运行区间:CHIAR-Former在大规模自然语言文本上表现优异(此时token多样性支持谱专业化),而全注意力在小数据集和合成模式匹配任务上仍保持优势。这些发现——无论是成功还是不足——共同定义了谱路由在何时以及为何能够发挥其价值。
长时域智能体任务对基于结果的强化学习提出了一个根本性的信用分配挑战:轨迹级奖励只能验证最终结果的正确性,却难以指明哪些中间推理步骤或工具交互对结果产生了贡献。这一困难在多轮搜索智能体中尤为突出——成功轨迹可能包含误导性动作,而失败轨迹也可能包含有价值的证据收集步骤。我们提出PBSD(特权贝叶斯自蒸馏),一种在稀疏最终奖励下进行细粒度信用分配的贝叶斯校准自蒸馏方法。PBSD通过已验证答案的后验-先验概率比来衡量轨迹质量,并利用贝叶斯法则将这一难以估计的答案侧比率转换为标准学生模型与特权答案条件教师模型之间易于处理的似然比。通过对该贝叶斯证据分数进行自回归分解,得到能够识别每个中间轮次是支持还是削弱已验证结果的轮次级信号。因此,PBSD提供了一种原则性且优雅的重新加权方案,将稀疏的结果监督转化为经过贝叶斯校准的轮次级信用信号,同时与标准策略优化保持完全兼容。实验表明,PBSD在领域内和领域外场景中均能持续提升性能,并能有效将知识从短上下文训练迁移到长上下文推理中,表明其细粒度信用分配机制有助于更有效的策略学习,并带来更好的泛化能力。
近期,机器人操作领域的进展主要得益于大规模示范学习。然而,对于人形机器人的定位操作任务,现有数据源在轨迹质量与可扩展性之间难以两全:真实世界远程操作虽能提供最高质量的轨迹,却需要专用的物理空间和耗时的场景重置;而模拟环境则为此困境提供了另一条出路——无需物理硬件即可大规模生成与实体对齐的干净数据。本文提出OASIS框架,一种基于模拟数据的面向人形机器人定位操作的方案。该框架利用3D生成模型从真实世界图像中自动重建逼真的物体资产,并基于这些资产先在模拟环境中通过远程操作采集轨迹,再在后处理阶段通过多样化的域随机化增强数据。基于生成的模拟数据,我们进一步设计了用于人形机器人定位操作的分层视觉运动策略。在真实人形机器人上的大量实验表明,零样本部署条件下,基于模拟数据训练的策略在多数任务上成功率高于基于真实机器人远程操作数据训练的策略,这主要得益于模拟渲染所覆盖的广泛光照与环境变化——这是真实机器人数据难以企及的。项目页面见 https://oasis-humanoid.github.io/。
本文探讨了代理型3D空间理解,即多模态大语言模型(MLLM)代理通过工具使用执行3D推理。现有方法在3D场景下常误用工具,并表现出有偏好的工具倾向,导致代理范式相较于非代理策略仅有微弱的性能提升。我们揭示出3D空间推理任务在不同场景间具有异构性,而现有代理对所有场景采用统一的工具使用策略,而非根据具体场景和任务选择工具。为此,我们提出Skill-3D,一种学习自进化场景感知技能的框架。具体而言,Skill-3D识别任务场景,并将代理的工具使用轨迹记录到场景记忆中,其中来自相似场景的成功轨迹被聚合和蒸馏成可复用的场景感知技能,而失败轨迹则作为经验教训附加到该技能中。在训练过程中,一旦相似场景再次出现,相应技能被注入以指导代理,产生新的轨迹,其成败结果进一步优化该技能,形成记忆与技能库协同进化的循环。实验表明,Skill-3D显著提升了3D空间推理中的工具利用率(在VSI-Bench上从39%提升至78%),推动代理走向正确且充分的工具使用。例如,在MMSI-Bench上,它将Gemini-3-Flash的性能提升了67%。此外,我们在技能引导的轨迹上进行了代理后训练,使Qwen3-VL-8B在VSI-Bench上提升了43%。
使大型语言模型(LLM)能够执行可靠的多步工作流已成为人工智能领域的核心挑战。尽管近期在LLM的智能体能力方面取得进展,但大多数智能体系统仍缺乏形式化方法用于指定、验证和调试其工作流及执行轨迹。这一挑战与数学中一个长期存在的问题相呼应——自然语言(NL)的模糊性推动着形式语言(FL)的发展。受此范式启发,我们提出了**Lean4Agent**——据我们所知,这是首个利用依赖类型形式语言Lean4来建模和验证智能体行为的框架。**Lean4Agent**推出了**FormalAgentLib**,一个可扩展的Lean4库,用于在显式假设下形式化建模和验证智能体工作流的语义一致性,并支持通过轨迹定位执行时故障。基于**FormalAgentLib**,我们进一步开发了**LeanEvolve**,它应用**FormalAgentLib**中的结果来修订工作流以提升其能力。在SWE-Bench-Verified的困难子集及ELAIP-Bench子集上,针对5个主流LLM进行的大量实验表明:通过验证的工作流相较于未通过的方案平均性能提升**11.94%**,而**LeanEvolve**进一步将SWE性能平均提升**7.47%**。此外,**Lean4Agent**为使用表达能力丰富的依赖类型形式语言形式化建模与验证智能体行为这一新领域奠定了基础。
混合专家模型(MoE)如今已成为前沿语言模型的主流架构,但该架构要求将所有专家参数加载至内存中,因此并不适用于内存受限的部署场景。现有的压缩方法虽然能减少专家数量,但输出结果仍是具有相同根本局限性的MoE模型。我们提出了首个将训练好的MoE转换为标准全密集架构的系统性框架:先对专家进行评分、选择和分组,再将其拼接成密集前馈网络(FFN),并通过知识蒸馏从MoE教师模型中精炼优化。我们针对Qwen3-30B-A3B模型,在多种选定专家数量下评估了7种评分方法、5种分组方法和2种幅度缩放方法,共生成350种配置。研究发现评分方法的选择影响最大,我们提出的新型多样性感知评分方法在Qwen3-30B-A3B、DeepSeek-V2-Lite和GPT-OSS-20B上始终优于以往方法。在参数数量匹配的受控对比下,经过约40亿token的蒸馏后,MoE转密集模型在平均下游准确率上比密集到密集剪枝方法高出6.3个百分点,且训练时钟速度提升1.6倍。
反思式智能体依赖自我生成的反思作为记忆,隐含假设智能体能够准确诊断自身失败。我们发现这一假设可能系统性失效:在ALFWorld和HumanEval中,智能体会存储对任务的自信但错误的解读,并在多次试验中持续基于这些解读行动,即便环境每次都重置为正确任务。我们将这种失败模式称为**记忆虚构**,并引入**反思重复率(RRR)**,一种基于日志的度量指标,用于检测对错误反思内容的重复依赖。通过RRR,我们在ALFWorld中识别出16个冻结环境,其中121条反思中无一提及正确目标对象,在HumanEval中也发现4个类似案例。我们的缓解方案将开放式自我诊断替换为程序化提取轨迹级别的失败信号,使正确对象提及率从0%提升至86%,RRR从0.64降至0.10,并成功解决了ALFWorld中16个冻结环境中的3个,这表明反思记忆可能强化而非纠正错误信念。
被动长波红外(LWIR)远距离高光谱成像依赖于大气吸收与发射以及反射辐射,因此大气补偿对于获取目标信息至关重要。尽管其重要性显著,但由于实践和建模的难度,这一补偿过程在很大程度上被忽视。本文提出了一种轻量级的基于集合的深度学习框架,该框架以在不同远距离距离处采集的多个辐射测量值作为输入,联合估计透射率、大气路径辐射以及共享的下行辐射光谱。我们通过稀疏自编码器分析学习到的表示,并观察到,尽管没有位置监督,但某些潜在特征确实在测试数据的地理相干子集上被激活。在MODTRAN生成的远距离LWIR数据集上的实验表明,所有估计产物的光谱失真较低。数据集和代码已公开:https://factral.co/SAE-LWIR/
跨视角地理定位通过将地面图像与航空图像数据库进行匹配来估计其地理位置。现有方法通过大规模检索或精确位姿估计来解决这一问题,但无法同时兼顾两者:基于检索的方法可实现广域搜索,但牺牲了定位精度;而位姿估计方法仅在有限搜索空间内实现高精度。简单级联这些流程会导致误差传播和特征表示不一致。本文将跨视角地理定位表述为一个统一问题,要求同时实现城市级检索和精确的三自由度位姿估计。我们提出CIPER(跨视角图像检索与位姿估计Transformer),这是一种通过互利特征学习联合执行两项任务的单一架构。CIPER采用共享Transformer编码器及任务特定标记,将全局检索特征与空间定位线索解耦。为弥合地面与航空视角间巨大的领域差异,我们引入双向Transformer位姿解码器,利用地面特征作为空间查询实现双向交叉注意力。基于集合预测的策略进一步在统一多目标优化下实现稳定的三自由度回归。在VIGOR、KITTI和Ford Multi-AV数据集上的实验表明,该方法尤其在有限视场角和任意朝向条件下性能优异。代码已开源:https://github.com/yurimjeon1892/CIPER。
无参考忠实度指标逐条验证模型生成的每个原子声明与事实依据的一致性,并越来越多地用于评估基于事实的生成。我们揭示它们存在一个共同盲区:仅衡量精确率——即所提声明是否得到支持?——因此会奖励回避回答,因为模型几乎不输出任何内容就能获得近乎完美的忠实度分数。我们通过F1遥测数据使这一问题可量化:在该领域中,策略性事实依据可确定性地、且至关重要的是完全地被推导出来。对于每个决策,我们知道所有关键事实的完整集合。这种完整性——在开放域忠实度基准中缺失——使我们能够精确测量召回率(相关事实的覆盖程度)以及精确率。在涵盖150场比赛的7,253个决策实例的多语言(英/西/葡)基准测试中,最精确的前沿模型覆盖了不到一半的相关事实,并在F1分数上排名垫底——因此引入覆盖率要求后,系统排名发生重排;同样的效应在另一个完整事实依据领域(NOAA天气预报)中再次出现。提示消融实验表明,低覆盖率并非提示不足造成的人为现象:明确要求模型详尽回答也无法缩小这一差距。我们将忠实度与覆盖率合并为单一分数,验证该指标(通过控制扰动实验;无模型的正则表达式提取器与跨族系大语言模型提取器之间的一致性达到系统级斯皮尔曼相关系数1.0),并提出一种验证器引导的生成方法,无需参考即可提升精确率和召回率。我们公开了该基准测试、结构化标注、指标、基线和交互式演示。
大语言模型(LLMs)通过上下文学习整合语言资源,为极低资源语言的机器翻译(MT)提供了富有前景的途径。然而,LLMs在翻译过程中往往难以有效应用语法信息。受思维链推理最新进展的启发,我们研究了低资源机器翻译能否从结构化的语言分析与语法推理中间步骤中获益。我们提出了一套自动化的流程,能从通用依存关系树库、词典和语法规则库中逐步生成语言推理轨迹。我们以锡伯语和昌唐语为测试案例,在三种设置下评估了这些轨迹:上下文学习(ICL)、监督微调(SFT)和强化微调(RFT)。结果表明,语言推理轨迹作为推理阶段的指导最为有效:在ICL中,可靠的句子特定轨迹在大多数模型、语言和评估指标上显著提升了翻译性能。相比之下,将语言推理轨迹作为训练数据使用,带来的提升较小且不够稳定——模型虽然学会了轨迹格式,但生成的推理内容常常存在错误。这些发现表明,当LLMs获得可靠的语言分析时,它们能够利用语法信息进行低资源机器翻译,而学习生成此类分析仍然是主要的瓶颈。
企业属性图在模式结构、内部术语、领域假设、治理约束及用户交互模式上存在显著差异。一个适用于部署场景的Text2Cypher基准测试,应当反映用户和智能体实际向该图提出的问题。由于模式与数值具有独特性,且图结构随时间动态变化,构建此类基准十分困难。每个自然语言查询对必须可执行、使用真实图实体、保持多样性,并在查询类型和难度级别间维持平衡。我们提出PIPE-Cypher,一种本地基准生成管道,能够将活跃属性图及来自客户问题、分析师日志或智能体工具调用的可选取种子查询,转化为均衡的自然语言到Cypher基准。PIPE-Cypher结合了模式剖析、反向查询定位、受约束生成、确定性Cypher治理、执行验证、内容脱敏、多样性控制,以及经过校准的本地LLM评判器。利用本地Qwen3.5-9B模型进行生成与评判,PIPE-Cypher输出了3000个经认可的FinBench/SNB示例,完成了三组经审查的消融实验,借助人工标注校准了评判器行为,并评估了11个本地下游模型。所生成的基准具有明确的区分性:零样本迁移效果较弱,而少量样本控制实验表明,特定模式的示例库有助于兼容模型家族的性能提升。综上,PIPE-Cypher使Text2Cypher基准测试成为一个可重复的过程,能够随图、用户及目标工作负载的演变而同步发展。
我们提出EMMA,一种融合物理信息的多模态框架,能够直接从原始视频、音频及基于图像的时间序列观测中恢复系统的全部可辨识动力学参数。与以往仅依赖视频、难以处理遮挡状态、隐藏驱动输入或需预设初始条件及坐标系的方案不同,EMMA在统一连续时间模型内联合推断显式参数、隐式动力学分量及标定不变量。EMMA借助液体时不变(LTC)网络从异质模态中学习隐动力学,同时通过物理约束损失确保与支配微分方程的一致性。统一的特征处理管线实现了视频轨迹、声学特征及图表测量值之间的对齐,使EMMA能够在无需分割掩膜、可微渲染或专用传感器的情况下,估计受迫、隐式及多变量动力学下的参数。在涵盖五个标准动力学基准(75段Delfys视频)、含隐藏输入的真实世界漫游车与四旋翼系统,以及跨生物与混沌系统的仿真-图表案例研究等100余个场景中,EMMA实现了稳健的多参数恢复,显著优于现有单模态及方程发现基线方法。实验结果证明EMMA是从机会性多模态数据中提取物理一致模型的一种通用、可扩展的解决方案。代码与数据见:https://github.com/ImpactLabASU/EMMA-CVPR2026