每日精选AI研究论文及翻译
大型语言模型代理日益在庞大的工具生态系统中运作,其中真实世界任务需要发现相关工具、推断隐含子目标,并在长期任务中适应动态环境。然而,现有基准测试很少评估在检索受限的工具可见性下的规划能力。为弥补这一空白,我们推出了PlanBench-XL——一个包含327个零售任务、涉及1665种工具的交互式基准测试,用于检验代理能否迭代检索可用工具、调用它们以揭示中间证据,从而为后续调用最终目标服务。PlanBench-XL还具备可选的阻塞机制,通过缺失、失效或干扰工具函数模拟真实世界的不确定性,迫使代理检测中断路径并在运行时动态适应。对十款领先大语言模型的实验表明,大规模工具规划仍具挑战性:在无阻塞情况下,GPT-5.4达到51.90%的准确率,但在最严重的阻塞条件下骤降至11.36%。进一步分析显示,当失败缺乏明确错误信号,或恢复需要更长的替代工具使用路径时,代理尤为脆弱。这些结果证实PlanBench-XL是诊断代理规划失败的测试平台,并凸显了在包含大规模、不完美工具环境的长期任务中,进行稳健自适应规划的必要性。
现代智能体系统常常面临运行时状态碎片化的问题:对话记录、工具效果、记忆事件、工作区放置、分支来源以及重放证据被分别记录,导致难以检查或复现。OpenRath通过一种类似PyTorch的编程模型来解决这一问题,该模型适用于多智能体、多会话系统。这里的类比涉及一个核心的一等运行时抽象的角色,而不是张量计算。其核心抽象是Session,即智能体与工作流之间传递的运行时值。Session是可分支、可检查、可重放、支持后端且可组合的。它记录对话片段、沙箱放置、谱系元数据、令牌使用、待办工作以及工具证据,同时定义记忆交互进入运行时记录的位置。由于这种状态由程序执行中使用的同一个值携带,因此分支、合并和重放成为显式的运行时操作,而非从外部追踪中重构的状态。OpenRath进一步定义了沙箱、工具、智能体、记忆、工作流和选择器,其中选择器将控制流转化为运行时路由的决策。本报告介绍了编程模型、架构、审计里程碑以及证据协议。其主张仅限于受控的运行时属性,而广泛的定量比较、实时提供商质量、可选后端可用性以及记忆质量则留待后续评估。核心论点是:Session为智能体系统提供了一个可审计组合的一等运行时值。
海量非结构化多模态流数据存在高“数据熵”,既阻碍了人类高效知识获取,也制约了高质量AI后训练。现有依赖启发式规则或通用视觉语言模型的被动标注范式,成本高昂、模式单一,且无法挖掘原始数据中蕴含的深层过程逻辑。我们将数据处理提升为一种可学习能力,提出向“主体式数据精炼”的范式转变,通过主动优化和结构化数据,使其与多样化的用户及下游意图对齐。为突破训练此类高阶能力时的数据稀缺瓶颈,我们设计了一个两阶段流水线,将生成式语义合成锚定于确定性事实锚点,从而构建覆盖五个核心物理与数字领域的大规模数据集。在此基础上,DataClaw_0-9B模型融合了监督微调与组相对策略优化,实现了对复杂精炼与整理意图的稳健对齐。为系统量化该能力,我们构建了DataClaw_0-val——首个专用于数据精炼的基准测试。关键的是,我们以下游后训练作为最终验证试金石。在视频生成、真实世界视觉问答及GUI导航上的评估证实,DataClaw_0能够产出高信息密度的精炼数据,从而在有限训练数据条件下促进模型高效适应新任务。项目页面:https://czjdsg.github.io/MakeAnyData
企业智能体越来越多地在工作空间中运行:它们读取异构文件、调用工具并交付业务成果。我们提出EnterpriseClawBench——一个基于专有真实世界智能体会话构建的企业智能体基准。从大量工作场所会话档案出发,EnterpriseClawBench生成了852个可复现任务,每个任务均配有恢复的固定装置、重写的提示、角色类别、技能子类、硬性规则和语义评估标准。由于会话包含企业内部内容,我们不发布基准数据;我们的可复用贡献在于构建和评估协议。在EnterpriseClawBench上,最佳配置(Codex配合GPT-5.5)仅达到0.663。这些结果表明,企业智能体评估必须报告测试框架与模型的组合、工件交付、视觉质量、成本、运行时和技能迁移行为,而非将性能简化为单一分数。代码:https://github.com/FrontisAI/EnterpriseClawBench
自注意力机制是Transformer性能的核心,在长上下文长度下通常是Transformer中最昂贵的部分,因为其逐对词元交互的计算量随序列长度呈二次方增长。标准稠密注意力对所有词元不加区分地应用相同的注意力头集合,而不考虑词元的难度或信息含量。这种统一激活方式可能浪费计算资源,尤其是在序列变长、注意力成本迅速增加时。我们提出分组查询专家(GQE),这是一个基于分组查询注意力(GQA)的混合专家层。在每个GQA组内,路由为每个词元选择k个查询头专家,而所有键值头保持稠密且不变。因此,GQE保留了GQA的KV缓存优势,仅减少了活跃查询头的计算量。在250M参数规模、固定300亿词元预算下,GQE在下游任务准确性上与全活跃GQA基线持平,同时每个词元仅激活一半的查询头。
随着检索系统的规模不断扩大,高质量的重排序变得愈发重要。然而,现有的大多数重排序器(无论是基于编码器还是基于解码器)都会将查询和段落进行联合编码,这导致计算紧密耦合,限制了部署效率和灵活性。我们提出KaLM-Reranker-V1,一种快速但非延迟交互(FBNL)的重排序器,它在解耦查询与段落计算的同时,保留了富有表现力的相关性建模能力。KaLM-Reranker-V1基于编码器-解码器架构构建,利用编码器通过套娃嵌入池化对段落进行预编码,同时解码器对系统指令、用户指令和查询意图进行建模;随后通过交叉注意力机制捕获查询上下文与段落表示之间的相关性。这种设计通过解耦的段落编码提升了KaLM-Reranker-V1的效率,同时借助交叉注意力保留了丰富的相关性建模,因此并非延迟交互。我们将KaLM-Reranker-V1实例化为三个规模——Nano、Small和Large,其激活参数量分别为0.27B、1B和4B。在BEIR、MIRACL和LMEB上的大量实验表明,KaLM-Reranker-V1以卓越的效率实现了强劲的重排序性能。在BEIR上,KaLM-Reranker-V1达到了与Qwen3-Reranker系列等强大工业级模型相当的最先进性能;在MIRACL上,尽管未经过大量多语言数据训练,KaLM-Reranker-V1仍展现出优异的重排序能力。此外,在LMEB上,重排序模型表现出明显优势,即使是0.27B的Nano模型也能与7-12B的嵌入模型相竞争。
世界行动模型(WAMs)是一类具身预测行动模型,能将未来预测转化为可供行动参考的依据。近期WAMs重新利用了大型视频生成模型,另一条并行研究路线则依赖语言或视觉-语言主干网络,而非以视频生成为核心。这种快速扩展模糊了广义世界模型、视频生成模型、基于行动的视觉世界模型、视觉-语言-行动策略与WAMs之间的界限。本综述为该领域提供了统一的框架。它首先厘清这些边界,进而通过两个互补视角梳理现有工作:第一视角聚焦每种方法需生成什么——涵盖渲染式未来、隐式未来及无视频生成的行动推理;第二视角则按预测基质、主干网络、行动耦合方式及部署模式对每种方法进行分解。这种剖析方式支撑了对可交互性、因果性、持久性、物理合理性及泛化能力的统一讨论,随后探讨数据、评估及开放性挑战。沿这些维度,一个一致的设计模式浮现:WAMs并非简单地在行动头上附加视频生成器,而是预测行动方法——其设计选择通过权衡表征丰富性与计算、内存、延迟及行动标注成本来实现。该领域正朝着一种趋势发展:在保留控制所需信息的前提下,减少对未来的生成内容。本综述主页见 https://world-action-models.github.io/。
虽然近期基于LLM的终端代理展现出了令人期待的能力,但高质量可执行训练数据的稀缺性仍是一大关键瓶颈。现有合成流程通常通过将表面伪影拼凑成任务来扩展规模,但往往导致指令模糊、执行路径浅薄,且测试用例脆弱,无法提供有效的学习信号。为克服这一问题,我们提出了CLI-Universe,一个用于构建终端代理任务的基本原则性合成引擎。CLI-Universe通过在多维能力分类体系(领域、技能类型、能力与工程支柱)中组合采样来生成候选任务,随后依据真实技术资料进行证据引导的深层次研究,将每个候选任务落地。为确保严格的监督机制,经验证的蓝图会被实例化为Docker化环境,并经过多阶段可执行验证流程,包括基于评分准则的测试构建、提示条件过滤以及严格的失败—通过检查。在整个流程中,从候选生成到验证,约三分之二的候选任务会被剔除,仅保留那些真实、可验证且具备非平凡挑战性的任务。为验证我们的框架,我们构建了一个高度精炼的数据集CLI-Universe-6K,包含6000条轨迹。值得注意的是,在CLI-Universe-6K上微调Qwen3-32B模型,在Terminal-Bench 2.0上达到了33.4%的正确率。这创下了使用开源数据训练的32B及更小参数模型的最新最优成绩,并且超越了许多参数规模高一个数量级的模型,充分展示了结构化高保真合成的强大数据效率。
现有的嵌入模型本质上是静态的:它们孤立地编码文本片段,忽略了其周围的上下文和时间顺序。本文提出EvoEmbedding,一种新型嵌入模型,能够生成可演化的检索表示。它特别适用于长上下文场景,其中信息是动态的、序列化的,并且需要持续的状态追踪。我们的设计十分简洁:EvoEmbedding在顺序处理输入时维护一个持续更新的潜在记忆,并将其与原始内容共同用于生成可演化的嵌入。因此,对于同一查询,我们的模型会根据动态演变的上下文调整其表示以检索不同的目标,超越了静态的语义搜索。为了使模型具备这一能力,我们构建了EvoTrain-180K,这是一个多样化数据集,用于联合优化潜在记忆与检索。此外,我们引入了一个记忆队列以防止循环编码过程中的表示坍缩,并采用了分段批处理技术来解决显著的输入长度差异问题,将训练速度提升3.8倍。大量实验表明,我们的模型不仅在多项长上下文检索基准上优于更大规模的专业模型(如Qwen3-Embedding-8B和KaLM-Embedding-Gemma3-12B),而且能够很好地泛化到上下文长度超过其训练窗口10倍的下游任务(如个性化推荐)中。值得注意的是,EvoEmbedding能够无缝集成到智能体工作流中以提升性能。例如,配备我们模型的朴素检索增强生成(RAG)流程超越了专用的智能体记忆系统。项目页面:https://clare-nie.github.io/EvoEmbedding。
我们提出了BioMatrix,这是首个原生整合序列、结构与自然语言的多模态基础模型,针对分子和蛋白质采用纯解码器架构。现有生物基础模型分别追求原生多模态化和广泛实体覆盖:那些在统一目标下融合多种模态的模型仍局限于单一实体类型,而那些覆盖多种实体类型的模型要么省略显式结构建模,要么依赖适配器设计,导致模型无法原生生成其可读取的模态。BioMatrix通过将分子序列(支持SMILES和SELFIES表示法)、分子结构、蛋白质序列、蛋白质结构以及自然语言,经统一分词方案映射到共享离散标记空间,从而填补了这一空白——所有模态均在单一的下一个标记预测目标下统一消费与生成,无需外部编码器、投影适配器或特定模态的输出头。基于Qwen3语言模型(1.7B和4B),BioMatrix持续预训练于3044亿个标记,涵盖通用与领域特定文本、分子和蛋白质的序列与结构视图,以及跨模态语料库(交织生物分子实体与科学文本,并通过分子-蛋白质和蛋白质-蛋白质相互作用数据链接不同实体)。在对涵盖6大类80项任务(包括跨模态与模态内的单实体和多实体理解与生成任务)的下游应用进行微调后,BioMatrix在80项任务中的77项上达到了最先进或具有竞争力的性能,表明一个单一、原生多模态的通才模型能够有效匹配或超越各种生物任务中的专门化方法。
注意力机制的二次复杂度构成了长上下文处理的关键瓶颈,这激发了人们对混合注意力设计的兴趣。大多数开源混合模型采用层级策略。然而,先前的工作已注意到将线性注意力与全注意力整合的内在困难,表明注意力混合的设计空间仍未得到充分探索。为了探索这一空间,我们进行了可解释性分析,并观察到不同层表现出块级功能相似性,而同一层内的各个头部尽管共享输入特征,却显示出不同的功能特化。这种头级异质性表明,头部维度为融合异构注意力信号提供了自然而原则性的粒度。基于这一洞察,我们引入了HydraHead,一种沿头部轴混合全注意力与线性注意力的新颖架构。HydraHead包含两项关键创新:(1)一种基于可解释性的选择策略,用于识别对检索至关重要的头部并仅对其保留全注意力;(2)一个尺度归一化融合模块,用于调和全注意力与线性注意力头部输出之间的分布差异。通过利用参数复用和蒸馏的三阶段迁移流程,我们以最小的训练开销实现了高性能混合模型。在统一的训练设置下,HydraHead在长上下文任务上优于其他混合设计,同时保持了强大的通用推理能力。通过可解释性驱动的头部选择,HydraHead以7:1的线性注意力与全注意力比例,达到了3:1层级混合模型的长上下文性能。关键在于,仅在150亿词元上训练的HydraHead,在512K上下文长度下相比基线提升了超过69%,接近同等规模且原生上下文长度为256K的领先模型Qwen3.5。这凸显了头级混合的巨大扩展潜力。
计算机使用代理(CUAs)正越来越多地部署在动态交互环境中,这对其在交互过程中进行持续技能学习提出了日益增长的需求。近期方法通过从成功轨迹中学习可复用技能来应对这一挑战,但这些技能学习方法大多假设环境是静态且安全的,忽视了来自对抗性交互(如提示注入)和环境动态变化(如弹窗)带来的风险。在动态环境中,此类假设可能导致有风险的技能学习和脆弱的执行过程,从而损害CUA的可靠性。这就引发了一个问题:CUA如何在动态环境中安全地学习和使用技能?为解决该问题,我们提出了SkillHarness——一种面向动态环境下的安全技能驾驭框架。SkillHarness超越了静态技能抽象,通过将技能学习与利用建模为受安全约束的交互过程来加以实现。具体而言,我们引入技能边界概念,利用多源监督信号从交互轨迹中识别安全技能,并在技能全生命周期中构建自我改进的安全约束。此外,SkillHarness还引入了选择性技能复用机制,引导任务根据上下文进行分解,并通过选择性激活技能子集来完成任务。实验表明,SkillHarness将所学技能的不安全率降低了57.1%,并在动态环境变化下持续提升执行稳定性,优于现有基准方法。
大语言模型(LLMs)的自回归生成通常从最终层进行译码,其假设是更深层的表征能产生更可靠的下一词预测。我们通过揭示一种循环的“猜测-精炼-扰动”动态来重新审视这一假设:早期层形成粗略猜测,中间层精炼与推理相关的语义,而最终层可能将这些精炼后的预测扰动为通用或符合对齐偏好的词元。我们提出了一种无需训练的译码策略——置信译码,该策略通过基于熵的保守后向搜索,动态选择最可靠的近最终层。我们进一步将层选择问题理论化为一个最优停止问题,表明在有界投影噪声和主导的后期对齐扰动下,我们的搜索规则能够过滤扰动,同时相对于理想精炼层的损失保持有界。在密集模型和混合专家大语言模型上的实验表明,该方法在具有挑战性的推理基准(包括GPQA-Diamond、Omni-MATH和HLE)上取得了持续改进,且无内存开销,延迟增加不到2%。这些结果表明,动态绕过最终层的扰动可以激发对齐大语言模型中更强的推理能力。
自蒸馏通过利用模型自身生成的推理路径作为训练信号来提升大型语言模型的推理能力,通常采用隐式的logit层级对齐方式,通过最小化KL散度来逼近一个特权目标分布。然而,由于这种监督信号源于无控制的采样过程,它既无法诊断模型的具体错误,也无法针对其个体失败模式提供修正性指导。因此,模型只是学会了模仿特权分布,而非获得能精准定位其推理在何处、为何失败的细粒度修正。本文提出轨迹增强策略优化(TAPO),将自蒸馏从隐式的分布对齐发展为显式的轨迹构建。在强化学习训练中,模型针对同一查询同时生成正确与错误的推理路径,TAPO利用这种对比结构构建微反射修正——即新的训练轨迹:保留模型在失败点之前的错误推理过程,然后插入基于同采样组中正确参考的自然语言诊断与修正推理。由于每条轨迹都锚定在学习者自身的前缀与解答之上,这种修正信号相较于基于KL散度的位置级对齐方法,能在更大程度上保持模型的在策略分布。为整合这些轨迹,TAPO在模型能力边界处引入难度感知的候选选择,并采用解耦优势估计以防止梯度污染。在AIME 2024、AIME 2025及HMMT 2025上的实验表明,在相同训练步数下,TAPO相比GRPO取得了持续改进。进一步分析显示,TAPO同时增强了首轮推理能力与错误修正效果。
近期,以DeepSeek OCR为代表的端到端OCR模型再次将OCR技术推至聚光灯下。一种普遍观点认为,采用大语言模型(LLM)作为解码器,能够使模型借助语言的先验分布,从而提升OCR性能。然而,其弊端同样显著:随着输出序列增长,累积的KV缓存导致内存消耗攀升,生成速度逐步放缓。这与人类在长篇幅抄写任务中效率不降的特性形成鲜明对比。本技术报告提出了Unlimited OCR模型,旨在模拟人类的解析工作记忆。以DeepSeek OCR为基线,我们将解码器中的所有注意力层替换为所提出的参考滑动窗口注意力机制(R-SWA),该机制在降低注意力计算成本的同时,使整个解码过程中的KV缓存保持恒定。通过结合DeepSeek OCR编码器的高压缩率与我们的恒定KV缓存设计,Unlimited OCR在标准最大长度32K内,单次前向传播即可转录数十页文档。更重要的是,R-SWA是一种通用的解析注意力机制——除OCR外,它同样适用于语音识别、翻译等任务。代码与模型权重已开源至http://github.com/baidu/Unlimited-OCR。
深度研究智能体是基于大语言模型的系统,专为自主多步科学推理设计,在加速物理科学研究方面潜力巨大。然而,目前对其在该领域能力的全面深入评估仍然匮乏。为填补这一空白,我们提出了PhySciBench——一个与物理科学研究高度相关的基准测试,包含200个由专家精心设计的问题,平衡涵盖物理学与化学,涉及反映真实科研流程的六大任务类别。对当前最先进的模型和智能体系统在PhySciBench上的评估显示其性能有限,即使是最强的基线模型Gemini Deep Research,准确率也仅为33.5%。对失败案例的分析揭示了三个反复出现的缺陷:扩展推理链的脆弱性、跨步骤知识迁移的局限性,以及缺乏基于物理学的自我验证能力。基于这些发现,我们开发了DelveAgent——一个模块化多智能体框架,配备自适应规划循环、双粒度记忆与分层式物理自省机制。在四个科学基准上,DelveAgent将准确率提升了最多7.5个百分点,同时将推理成本降至最强基线的大约三分之一。这些结果确立了PhySciBench作为评估物理科学领域AI系统的关键基准的重要性,并证明了架构专业化能够有效增强自主科学研究的可靠性。
长时域任务在现实机器人部署中很常见,但其失败检测问题仍鲜有研究。检测长时域机器人任务的失败尤为困难,因为失败起点往往模糊不清,且通常缺乏密集的时间标注。我们提出Foresight,一个利用动作条件世界模型的潜在表征来监控操作轨迹的失败检测框架。Foresight仅通过最终任务级成功或失败标签进行训练。通过利用预测性的世界模型嵌入,我们的方法为不同策略提供了统一的失败检测框架。我们进一步使用函数共形预测(FCP)自适应地校准检测阈值。我们基于LIBERO-Long、ManiSkill-Long和BEHAVIOR-1K仿真环境中的最先进视觉-语言-动作策略评估了Foresight,并将其与现有最优失败检测方法进行比较,同时在ReactorX-200机械臂上执行三个长时域任务、在Franka机械臂上执行一个任务进行实物验证。结果表明,动作条件世界模型嵌入为长时域操作中的可靠失败监控提供了可扩展的表征。
由思维链和工具调用组成的长智能体轨迹会积累陈旧内容,这些内容会锚定后续生成,并最终超出上下文窗口。现有框架通过基于令牌阈值的固定间隔压缩来缓解这一问题。然而,此类触发机制未考虑轨迹结构,可能导致推导或搜索过程中部分结果被中途丢弃。我们提出SelfCompact——一种允许模型自主决定何时以及如何压缩的框架。具体而言,它结合了两个推理阶段要素:(i)模型调用的压缩工具,用于总结累积的上下文;(ii)一个轻量级规则清单,规定何时触发压缩(子任务已解决或轨迹趋于收敛)以及何时抑制压缩(推导中途或陷入停滞)。两者缺一不可:仅靠工具时,开源模型的使用方式参差不齐,常在不合适的时机调用或根本不调用;仅靠规则清单则无法执行。两者结合后,无需任何微调或外部监督即可实现有效的自适应压缩。我们在六个基准测试(竞赛数学和智能体搜索)和七个模型上进行了实验。结果表明,SelfCompact以极低的令牌成本达到或超越了固定间隔总结的效果,在数学任务上相比无总结基线提升高达18.1个百分点,在智能体搜索上提升5-9个百分点,同时每个问题的成本降低30-70%。研究结果揭示了一个元认知差距:尽管未经提示的模型无法可靠判断自身上下文何时开始"腐烂",但轻量级规则清单消除了这一差距,将"何时压缩"重新定义为框架无需训练即可提供的能力。
手机正逐渐成为通用智能体重要的执行界面,但训练用于可靠手机操作的开源模型仍面临挑战:部署时真正相关的环境——运行真实应用的真实设备——速度慢、带有状态、具有副作用且难以重置或验证,而可扩展的模拟环境仅能近似真实行为。我们提出PhoneBuddy,一个面向手机智能体操作的开源模型训练方案,它结合了真实应用环境与模拟应用环境PhoneWorld——后者能从真实图形用户界面使用结构重建可运行的模拟应用。PhoneBuddy首先利用在两个环境中采集的轨迹构建共享的监督微调阶段,随后对比单独基于真实应用的强化学习与混合两个环境的强化学习。在涉及真实手机上的150项任务的人工评估中(涵盖应用、迷你应用及跨应用工作流),任务成功率从监督微调后的36.67%提升至真实应用强化学习后的40.67%,再提升至混合强化学习后的45.33%。在AndroidWorld基准上,同一进程的指标从60.3%升至77.2%再升至83.2%。这些结果表明,模拟应用训练并非真实应用强化学习的替代品,而是可扩展、可重置且可自动检查交互的补充来源。其增益在应用和迷你应用任务上最为显著,而长跨度的跨应用工作流仍是一个重要的开放挑战。
科学发现的工作流程通常包含并高度依赖实验笔记,研究人员在其中记录观察结果、解读不确定的实验数据,并规划后续实验。这类信息丰富的实验笔记保留了科学推理的演进过程及作者的不确定性,而非论文中展示的最终精炼结果,这为人工智能在更全面、更深入的层面参与科学探索提供了宝贵机遇。然而,此前大多数关于科学文本的研究聚焦于论文、实验方案或结构化数据库,导致非正式实验笔记作为人工智能科学代理的输入数据尚未得到充分探索。这一空白意义重大,因为实验笔记往往在同一段落中混杂了已验证的观察结果、初步判断以及可能的后续实验步骤。若这些信号被混淆,人工智能代理可能将不确定的科学判断误认为已确认的结论或可执行的行动。为此,我们提出Notes2Skills框架,这是一个两阶段系统,旨在将实验笔记转化为科学人工智能代理可验证的技能,同时保留作者的确定性。在七种实验条件和三次湿实验环节中,Notes2Skills是唯一既不会将不确定笔记误认为明确指令,也不会丢弃明确指令的配置。我们证明,确定性保留是连接实验笔记与可靠代理技能之间缺失的关键环节,为构建更安全的人工智能协同科学家系统开辟了道路。
搜索代理(SA)通常借助大语言模型(LLM),通过自主探索网络资源并整合信息生成综合回答,以支持复杂的信息检索任务。在SA评估方面,现有基准测试主要聚焦于现实用户场景中极少出现的专业化任务。此外,这些测试依赖粗粒度的任务级评分标准,往往限制了评估的可解释性。为解决这一问题,我们提出DailyReport——一个面向日常搜索任务的开放式基准测试,用于评估SA能力。该基准包含150个开放式任务及3546条关联评分细则,捕捉了真实用户广泛讨论且具有时效性的信息需求。每个任务被分解为子任务,并通过解耦维度上的级联评分标准进行评估。通过级联性能归因与以用户为中心的聚合方法,我们为每个维度推导出高可解释性得分,并生成用户偏好得分。在17个智能系统上的实验结果表明,当前系统仍未能达到用户预期。为促进未来研究,我们的数据集与代码已在https://github.com/AGI-Eval-Official/DailyReport 公开。
终端代理已迅速成为语言模型(LM)最流行的下游应用。尽管其广泛存在,但学术领域对基于强化学习(RL)训练此类模型的研究相对较少,这可能是由于基准测试难度大、数据缺乏以及缺少简单的基线方案。我们提出了Tmax,这是迄今为止针对终端代理的最强开源RL方案,将开放数据方案进一步推向前沿。尽管方法简单,我们的方案仅凭9B参数就在Terminal-Bench 2.0上达到了27%的性能,超越了过去工作中规模更大的模型。具体而言,我们采用一种新颖的分类体系生成数据,结合难度控制、角色设定和验证器多样化,从而能够以低成本生成大量用于RL和监督微调(SFT)训练的终端环境。我们开源了终端数据集,其规模是此前发布的终端代理数据集的2.5倍以上。随后,我们使用我们的数据通过RL训练开放权重的模型,仅采用简单的、仅基于结果的方案。我们将数据、模型和代码作为未来终端代理开放学术研究的强基线发布,地址为https://github.com/hamishivi/tmax。
将文本到图像流匹配模型与人类偏好对齐时,通过直接奖励反向传播的方法具有样本效率高的优势,但受到两个已知问题的制约:在当代模型规模下,无法存储整个采样轨迹中的激活值;同时,跨步骤的链式雅可比积会导致奖励梯度反向传播至早期索引时出现膨胀。基于连接器的方法(如LeapAlign)通过用短固定路径替代完整反向轨迹来解决这些问题,凸显了采样与优化之间的有效解耦。然而,梯度质量取决于该短路径对完整展开的近似精度,尤其是在长间隔下。我们提出FlowBP,这是一种统一的替代轨迹框架,将反向轨迹本身视为设计对象。FlowBP保留无梯度的缓存展开用于采样,然后利用缓存和选择性重前向的速度构建轻量级反向替代。这一视角分离了四个选择:奖励模型输入、激活集、积分权重和桥接耦合,并将先前的直接梯度方法恢复为特定设置。在该框架内,我们实例化了三种变体:FlowBP-Sparse采用稀疏欧拉重构,FlowBP-Bridge引入受控桥接耦合,FlowBP-Lagrange提升了跳跃正交的阶数。三者均通过激活集大小限制内存,并将梯度链限制为至多一个雅可比因子。在SD3.5-M、FLUX.1-dev和FLUX.2-Klein-base上,基于偏好、质量和构成性指标,这三种变体在大多数指标上优于直接梯度基线方法。
流匹配最近已成为最先进的文本到图像(T2I)生成领域的重要范式,能够通过少量采样步骤生成高质量图像。随着这些模型越来越多地集成到实际应用中,确保生成内容安全且无敏感信息已成为关键需求。然而,将安全性和概念移除方法适配到这一新的生成框架仍是一个开放挑战。具体来说,先前的方法主要依赖于跨多个去噪步骤的迭代轨迹引导,或基于CLIP中心的提示嵌入操作。这些设计假设在基于流匹配的T2I生成中带来了根本性瓶颈,因为有限的采样步骤限制了迭代校正,而现代上下文感知文本编码器则降低了嵌入层面干预的有效性。本文提出VESFlow,一种针对极少量采样步骤流匹配的免训练安全方法。利用流匹配模型学习边际速度这一特性,我们通过安全条件后验直接编辑速度场。VESFlow在保持条件提示不变的同时,将轨迹引导至安全输出。基于VESFlow在良性提示下输出不变的观察,我们进一步引入基于风险分数的过滤机制,通过跳过速度编辑来降低计算成本,同时保留良性提示的生成。基于该过滤机制,我们提出VESFlow+——VESFlow的更强变体,它不仅将速度向安全方向编辑,还使其远离不安全方向。实验结果表明,在4步MeanFlow模型上,VESFlow+移除了目标概念,将Ring-A-Bell的攻击成功率降低至NudeNet的6.3%,将MMA-Diffusion的攻击成功率降低至6.8%,同时保持了良性提示的保真度。
开放权重的大型语言模型(LLM)推动了科学进步和广泛部署,但也使控制敏感能力的访问变得困难。当前的做法要么在发布前压制危险能力,要么通过封闭服务(使用专门的模型变体、输入/输出监控和API权限)来中介访问。前者易受越狱攻击,且为缓解少数用户带来的风险而牺牲所有用户的能力;后者则与开放权重发布根本不相容。本文提出分级语言模型(TLM),其中一套发布的权重支持多种能力级别。在默认公共配置下,TLM表现为传统LLM。一个紧凑的密钥指定了一个小参数子集上的置换,在相同权重上诱导出替代计算图,从而暴露额外能力。我们开发了一种训练协议,从头联合预训练两种配置,然后在私有数据上对密钥化配置进行微调并加入正则化以保持公共模型的行为。我们预训练了1.8亿和6.5亿参数的TLM,并证明密钥化配置能够习得新语言、获得指令遵循能力并记忆私有事实知识,而公共配置则完全不具有这些能力。此外,我们证明该方法可自然扩展到多层分级结构。由于授权作用于模型权重结构而非输入空间,该机制能抵抗基于微调的提取和部分密钥泄露。总体而言,TLM在调和开放权重发布与选择性能力控制方面迈出了一步。
潜在动作预训练通过学习观察对之间的视觉变化表征,但现有方法通常将每次状态转移编码为单一的非结构化表征,导致转移程度与转移模式相互纠缠。我们提出具有径向结构的极坐标潜在动作(PoLAR),在潜在动作上施加径向方向结构,促使半径编码转移程度,方向保留转移模式。PoLAR利用两个观测之间的时间间隔作为转移程度的弱代理信号,促使时间间隔更大的观测对对应的潜在动作占据更大的半径。我们在双曲空间中实例化该结构,其随半径扩张的体积天然适配更大转移程度下更丰富的转移模式。在任务内和大规模预训练设定中,PoLAR提升了仿真和真实机器人实验的下游策略性能,优于潜在动作基线方法及强预训练视觉语言动作模型。这些结果表明,潜在动作空间的几何结构是将视觉预训练迁移至下游机器人策略学习的重要设计选择。
本文提出了一种通用框架,用于训练大语言模型(LLMs)掌握“串联点”(Connect the Dots, CoD)能力——这是长期生命周期代理所需的一项元能力:基于LLM的人工智能代理在部署到环境中时,需解决一系列长程任务,同时持续探索环境、从自身经验中学习,并迭代更新其对环境的上下文理解,从而在后续任务中基于更新后的上下文逐步提升性能。CoD框架的主要组成部分包括:(1)端到端强化学习(RL)的算法设计与基础设施,支持将任务求解与上下文更新回合交错进行的长 rollout 序列;(2)用于在训练中激励和引导LLM习得目标元能力的任务与环境设计,以及在评估中准确衡量进展的机制。我们提供了CoD框架的概念验证实现,包括一种带有细粒度信用分配的GRPO风格强化学习算法,以及针对目标元能力(而非特定领域LLM能力或标准逐任务RL)定制的任务与环境。实证结果验证了CoD场景中端到端RL训练的有效性,并展示了所诱发元能力在分布外泛化方面的潜力——包括训练域内、跨域以及从CoD到Ralph循环设置中的泛化。我们对CoD的研究连接了多项先前工作,并为推动LLM与AI代理的发展开辟了新机遇。为促进进一步研究与应用,我们将代码实现公开于 https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod。
近期,将大语言模型与因果发现相结合的尝试,要求模型推断变量对之间的方向、提出图结构,或将语言模型的输出作为先验和约束引入。这些方法有望加速分析,但也模糊了因果证据究竟是源于数据与假设,还是源于文本关联、提示伪影或虚构机制。我们对智能体在因果发现中的角色提出了不同看法:智能体应当检查数据、检索上下文、解释方法假设并阐明图输出,但不应当提供边、方向、先验、约束或因果结论。我们提出原则:智能体辅助工作流程,而因果主张仍需基于数据、明确假设、形式化算法、诊断结果以及用户或领域专家的决策。我们基于这一原则构建了 causal-learn+ 在线平台,该平台围绕 causal-learn 算法生态系统,协调数据分析、预处理、方法推荐、专家知识整合、形式化发现与解释。基于大五人格数据的案例研究展示了在因果发现中,如何实现智能体辅助的流程,而避免将语言模型的不可靠性转化为因果证据。平台网址为 causallearn.com。
现代语言模型,包括Transformer、循环网络及记忆增强变体,共享同一基础架构:由若干相同层级堆叠而成,参数在深度方向上均匀分配。这一设计继承自原始Transformer并延续至今,但越来越多的证据表明,各层级对最终输出的贡献并不均匀——后期层更多是细化残差流而非进行转换。我们提出疑问:参数容量是否应反映这种不对称性?受控实验表明,在固定预算下,相较于均匀宽度基线,将更多容量分配至早期层、更少容量分配至后期层可提升困惑度,而反向分配则有害。基于此结果,我们提出锥形语言模型(TLMs)这一架构原则,即参数承载组件在深度方向上按单调渐变方式分配,且总预算固定。MLP是实现这一机制的自然载体:它在所有现代LM系列中占据参数主导地位,且宽度作为单一、清晰的变化轴。在三种模型规模及四种架构(Transformer、门控注意力、Hope注意力与Titans)中,通过平滑余弦调度对MLP宽度进行锥形缩减,相较于均匀基线一致地提升了困惑度及下游基准性能,且无额外参数或计算开销。这些发现确立了深度感知的容量分配作为语言模型设计中一个简单、架构无关的设计轴——一个隐藏于显而易见之处的免费杠杆。
随着智能体系统处理日益复杂的多步骤任务,评估其轨迹成为主要瓶颈——在主流智能体基准测试中,人工标注单条轨迹可能需要数小时,这导致评估规模化测量性能或整理训练数据变得困难。这一现状促使学界广泛依赖自动化方法(例如以LLM作为评判者,LLMJ)对智能体的过程与结果进行大规模评估,然而LLMJ评判的可靠性往往未经验证。为此,我们提出Counsel——首个面向智能体任务的元评估公开数据集。该数据集包含基于开源权重LLMJ对两项智能体基准测试(客户支持智能体基准tau-bench与代码智能体基准DA-Code)的过程级评判,以及人类对这些评判的元评估。标注人员对每个标记错误的评判标注为"精准定位"、"定位正确但推理不当"或"不应标记",达到了可靠的标注者间一致性(Krippendorff alpha系数0.78)。通过将LLMJ评判按轨迹中错误定位与推理质量两个维度进行人工对齐分层,该数据集为校准、改进或训练面向智能体的LLMJ提供了宝贵资源。对比不同开源权重评判模型,我们发现更强大的评判模型与更多推理投入均能提升与人类判断的一致性——最强评判模型在错误定位上达到约88%的一致性,在推理质量上达到约65%。Counsel基于开源权重模型生成并采用宽松许可协议,旨在促进社区广泛使用,我们期待它能为智能体系统中基于LLM的评估器提供严谨研究并改善其对齐程度。
多视图3D视觉问答(MV3D-VQA)需要将局部观测整合为一致的3D场景表示,并选择信息量丰富的视角以进行多步空间推理。然而,当前的多模态大语言模型通常使用稀疏的答案级监督进行训练,这往往导致跨视角推理不一致以及视角选择不稳健。我们提出DR-MV3D(面向MV3D-VQA的密集奖励),一种基于地图引导的学习框架,通过提供密集且可验证的奖励来监督推理过程。该方法将MV3D-VQA分解为:(i)异中心全局地图构建,(ii)基于问题的视角轨迹规划,以及(iii)用于答案预测的自我中心定位。为了在不依赖人工标注的情况下使中间步骤可学习,我们引入了两种奖励:全局一致性奖励,用于将预测地图与来自冻结3D视觉基础模型(如VGGT+SAM3)的几何一致伪目标对齐;以及局部轨迹奖励,用于监督有序的视角选择。我们通过轨迹级策略优化(GRPO)对整个流程进行优化。在MindCube、VSI-Bench和BLINK(MV)上的实验表明,DR-MV3D在强多图像基线上持续取得改进,验证了过程级密集监督对多视图3D推理的有效性。
视觉-语言-动作(VLA)模型为机器人操作提供了统一范式,但其实际部署常受执行效率瓶颈制约。尽管现有工作主要聚焦于以计算为中心的效率优化,以减少每步推理延迟,但这些模型内在的策略效率仍未得到充分探索。策略效率根本上受两个因素影响:预测动作块的有效可执行长度,以及完成任务所需的总物理步数。这两个因素共同决定了执行过程中前向推理调用的总次数。我们观察到,当前的VLA策略在规划可靠性和动作冗余方面存在困难,其动作块尾部会出现严重的预测退化,并且倾向于生成不必要的冗余物理步。为解决这一问题,我们提出PolicyTrim——一种基于强化学习的后训练框架,它能够延长可靠的动作块长度并减少冗余物理步。在可靠动作块扩展方面,我们采用动态探索策略,明确奖励成功完成更长可执行长度的行为,逐步将可信预测范围推向其实验极限。在步效率优化方面,我们设计了一种冗余感知奖励,直接奖励以更少步骤成功完成任务的行为,同时惩罚不可复现的捷径,从而有效消除冗余物理动作。在三个基准测试和三种VLA模型上的大量实验表明,PolicyTrim将动作块利用率提升了3倍,并减少了51.4%的物理执行步数。最终,我们的框架在不影响任务成功率的前提下,实现了高达5.83倍的端到端部署加速。
人们很容易假设,任何可由短程序解决的任务都可以通过其思维链教给模型:写出步骤、微调,模型就能跟随。本文表明,对于一类可识别的程序,该假设并不成立。测试平台包含九个推理任务,每个任务来自确定性生成器;公开和隐藏的数据切分共享生成器,因此保留集可代理测试准确率。我将这些生成器逆向工程为 Python 求解器,将其呈现为思维链,并使用秩 ≤ 32 的 LoRA 蒸馏到一个 30B(3.5B 活跃参数)的 Nemotron 模型上。可前向计算的任务易于安装:查找/算术任务以及一个 8 位布尔任务(转移率分别 ≥ 0.99 和 0.68)。但密码算术任务不行:即使搜索求解器能回答 71% 的实例,将其回溯搜索蒸馏到十一种思维链设计、基于可验证奖励的强化学习以及自训练中,性能仍维持在 0.01-0.07。这不是能力差距。模型能完成 97-100% 的算术行,并在 71% 的情况下将正确密码排在前八位;但它无法将搜索作为从左到右的推导持续推进。微调学会了可验证消除步骤的形状,但其判定却变成了无条件模板,正确率仅为 16-57%(“判定即令牌”)。这一天花板在从 3B 到 671B 的骨干模型以及微调和提示方法中均成立;一次受控干预隔离了原因:揭示密码密钥(使推导变为前向)后,相同实例的准确率从 0.03 提升至 0.57。当某个程序唯一的解决方案是在无信息结构上进行搜索时,就不存在可模仿的忠实前向思维链。该任务只有在移除搜索、将其组合核心预计算为一个目录、并将追踪简化为记忆加验证后才能被学习;第一名解决方案正是通过这种方式在私有排行榜上达到 0.92。因此,真正被蒸馏的是记忆和验证,而非搜索。
视频扩散模型在视频生成与编辑领域取得了显著进展。然而,内容保留仍是一个核心挑战:现有方法会重新生成每一帧像素,常常改变原本应保持不变的要素(如角色或背景场景)。我们提出Vera——一种用于内容保留视频编辑的分层扩散框架。Vera并非重新生成整个视频,而是生成一个编辑层及其对应的阿尔法遮罩,用于与源视频合成,通过设计将创意编辑与内容保留分离开来。为了促进与源视频的连贯合成,我们将文本到视频的DiT扩展为混合Transformer(Mixture-of-Transformers, MoT)架构,其中每个层拥有独立的DiT,通过联合自注意力机制进行交互。为支持Vera的训练,我们进一步构建了一个高质量分层数据集,包含精确的阿尔法遮罩、多样化的场景与动态以及视觉效果。在我们的定量基准测试和人类偏好研究中,Vera在内容保留方面优于领先的开源视频编辑模型,同时在编辑质量上保持竞争力,且仅使用了48.6万帧的分层训练数据。
强化学习是提升大语言模型推理能力的核心方法,其训练效率取决于优化过程中问题采样的方式。现有自适应课程学习方法通常优先选择中等难度的提示,将问题选择简化为具有独立臂的经典多臂老虎机问题,却忽略了任务空间的结构化异质性特征。本研究将问题采样重新定义为包含内生非平稳性的流形结构多臂老虎机问题:通过模型潜在表征空间关联问题,采样决策可引导学习信号在该空间中的演化方向。为落实这一视角,我们提出贝叶斯流形课程(BMC)——一种结构化感知框架,将问题组织为分层任务树,并应用贝叶斯学习指导采样。实验发现,不同采样策略会在生产率(学习信号)、多样性(任务流形覆盖范围)与实用性(评估相关性)之间产生显著权衡。研究结果表明,仅关注难度优先级不足以实现优异的下游性能,这凸显了在问题采样中融入结构化认知与类型感知的重要性。
线性探针在可解释性研究中被广泛使用,常通过余弦相似度进行比较。两个方向之间的马氏余弦相似度(MCS)利用测试数据协方差对內积进行重新加权,是一种自然的任务感知优化。Ying等人(2026)报告指出,探针与基于分布外(OOD)数据训练的参考探针之间的MCS,几乎完美地线性预测了该探针的OOD AUROC(R² = 0.98)。在此,我们将这一实证发现扩展到不同模型、层和概念域,并以闭式形式证明了这一普遍现象:对于投影后为正态分布的平衡类别,OOD AUROC与参考探针的MCS呈线性关系,因为二者均为探针在测试数据上的信噪比(SNR)的Sigmoid型函数。该理论还预测了这种线性关系何时失效,我们通过实验验证了这一预测。MCS为比较线性探针提供了一种有理论依据且实证有效的替代方案,优于欧几里得余弦相似度。
虽然大规模、多样化的数据集推动了大型模型的最新进展,但确定预训练和后训练的最优数据混合比例仍然是一个重要的开放问题。我们通过 FASTMIX 这一新型框架来应对这一挑战,该框架仅需训练单个代理模型即可自动发现数据混合方案。与依赖预定义启发式规则或资源密集型模拟不同,FASTMIX 联合优化混合系数与模型参数,从而在效率和可扩展性上显著优于先前方法。FASTMIX 的核心是将混合选择重新表述为一个双层优化问题。在这一表述下,我们证明优化混合比例在数学上等价于在均匀源采样下为每个数据源分配损失权重。这使得混合系数可以直接嵌入可微的迭代优化目标中,从而实现混合参数与模型参数的高效梯度优化。为解决该优化问题,FASTMIX 采用了一种近似迭代优化流程,交替执行以下步骤:(i)根据当前混合比例采样数据,更新模型参数(内循环),以及(ii)基于验证反馈更新混合比例(外循环)。在预训练和后训练场景中,FASTMIX 均优于基线方法,同时大幅降低了搜索成本。代码地址:https://github.com/hrtan/fastmix
视觉Transformer(ViT)主导着计算机视觉领域。然而,它们对刚性分块投影器的依赖阻碍了向地球观测(EO)任务的迁移,因为EO的输入模态、尺度和分辨率变化极大。我们提出UniverSat,一种基于通用分块编码器(Universal Patch Encoder)的ViT风格骨干网络,该编码器能将来自任意空间、光谱和时间分辨率、以及光学与非光学传感器的分块,通过共享权重映射到统一的嵌入空间。这使得我们能够以自监督方式在异构多模态数据集上训练单一模型,从而获得稳健且与传感器无关的空间特征。我们通过GeoBench、PANGEABench和SpectralEarth等标准EO基准上的分类与分割任务验证了该方法的显著效果。代码与模型已开源至 https://github.com/gastruc/UniverSat。
随着人工智能实验室逼近数据上限——即计算能力超过高质量新文本生成速率——语言模型的预训练正转向数据受限、计算充裕的范式,这要求对固定语料库进行高效的多轮训练。在这种情境下,标准的自回归(AR)预训练会严重过拟合,在达到最优值后持续恶化。我们研究了训练时的数据增强作为正则化手段,以缓解这种过拟合,并实现在相同数据上进行数百轮的有效训练。我们为AR预训练引入了三类正交的增强方法:词元级噪声(掩码、随机替换)、序列排列(从右到左预测、中间填充)以及目标偏移预测(预测x_{t+i},其中i > 1)。通过系统的消融实验,我们发现相较于基线,单独的增强方法能推迟过拟合并降低验证损失,其中随机词元替换在单独方法中取得了最佳的最小损失。结合不同类别的增强方法能进一步降低最小验证损失。我们的实验表明,数据增强能缓解AR预训练的数据效率低下问题,并为数据受限的范式提供了一种有前景的解决方案~\footnote{所有代码和数据均可在 https://github.com/michaelchen-lab/data-augmentations-for-pretraining 获取。}
在知识密集型问答中,大语言模型代理在执行检索和推理动作时,对其当前答案是否不确定、缺乏支撑或已完整缺乏完整认知。这会导致两种失败模式:一是给出自信但缺乏支撑的答案,损害准确性;二是在已有证据足够时过度检索,造成计算浪费。为了让代理更全面地理解其所处的状态空间,我们引入了校准验证器遥测(CalVerT),该机制通过额外遥测信息(校准的自信心分数和基于真实性的验证器分数)来增强代理的状态。我们证明,CalVerT 在无训练和基于训练的场景中均能提升代理性能。在四个问答基准测试中,我们发现 CalVerT 通过在代理过度依赖参数化知识时触发检索,并在代理拥有足够上下文时减少冗余检索,从而提高了 F1 分数。我们表明,CalVerT 无需训练即可增强现有问答框架。此外,CalVerT 还能提升训练过的系统:仅通过向代理状态中添加遥测信息,我们在强化学习后观察到该代理相比未使用 CalVerT 遥测但经过相同训练的代理性能有所改进。
离散文本触发器优化——即搜索能够使模型朝向特定目标行为的文本序列——支撑着模型红队测试(例如,大语言模型越狱)以及审计与可解释性研究。然而,当前离散优化器的现状阻碍了其应用与进展。首先,现有优化器即便开源,也分散在绑定特定模型、目标及问题领域的研究代码库中。其次,优化器变体层出不穷,每个都需要额外的工程开销才能使用或扩展,且难以进行直接对比。这些问题共同提升了在现有或新领域采用优化器、以及通过新策略推动其发展的门槛。我们通过TROPT弥补了这些不足——这是首个统一离散优化器执行流程并标准化其开发接口的开源框架。TROPT能够轻松定制端到端的优化方案:通过任意替换组件(模型、目标、优化器),将其适用范围扩展到不同领域和新应用。目前TROPT内置了30多种优化方案(涵盖越狱、探测模型内部结构等应用场景),这些方案由15种以上优化器(从白盒到黑盒访问)和15种以上损失函数(从基础方法到前沿技术)构建而成。为展示其实用性,我们利用TROPT进行了多项研究:(i)在大规模受控实验中对比并改进大语言模型越狱的优化策略,揭示了强大但尚未被充分采用的技术;(ii)将优化器从一个领域(如LLM越狱)迁移到新领域(如语料投毒嵌入模型)。总体而言,TROPT显著降低了采用和推进离散文本优化的门槛。
长视野LLM智能体可能悄无声息地失败:它们过早锁定某一证据解读,随后整个运行过程都用于维护这一解读。我们将此称为“过早确定”。最终答案评分无法捕捉此失效模式,因为它只关注答案本身,而不关注过程是否已崩溃至稳定路径。我们将“表征承诺”定义为在固定推理步骤上,跨运行的隐藏状态收敛,并将其作为轨迹一致性的早期诊断指标。在运行ReAct于HotpotQA的Llama-3.1-70B模型上,第4步隐藏状态相似性能够预测下游行为一致性(r = -0.35,偏相关 r = -0.45),且具有局部时间与逐层特征。该信号在Qwen-2.5-72B和Phi-3-14B模型以及StrategyQA基准上得以复现(r = -0.83)。但该信号并不追踪正确性:在激活相似性上,已承诺但错误的问题与已承诺且正确的问题之间无法区分。这一分界正是该论点的核心。承诺告诉我们智能体是否已确定,而非其是否正确。运行时监控器可通过隐藏状态检测不一致轨迹,AUROC高达0.97(严格拆分下为0.85–0.88),而提示干预将(与令牌匹配对照组相比)行为方差降低28%,同时准确率在统计上保持不变。我们还测试了该信号是否能引导自一致性计算;在更难的基准上,其效果仅属中等,且被基于输出的简单基线所超越。结果提供了针对隐蔽过程故障的诊断工具,具有明确边界,而非通用的准确率提升杠杆。
计算机使用代理(CUA)如今能代表用户处理各类个人应用,如电子邮件、日历和待办事项清单。这种跨应用访问虽具实用性,却带来了一个长期被忽视的隐私风险:当代理在一个场景中工作时,可能从另一场景调用不合适的上下文信息。为此,我们提出了AgentCIBench评估框架,将这一风险转化为可执行、可确定性评分的情景测试。我们聚焦于CUA的三种典型故障模式:视觉共置泄露(代理在UI中拉取位于任务目标旁的禁用项)、任务模糊性过度共享(代理在回应模糊指令时倾泻大量个人状态信息)、以及接收者错位(代理向不匹配收件人发送不当内容)。通过对15个前沿代理的评估,我们发现了惊人的高失败率:其中11个代理在超过50%的测试场景中发生数据泄露,平均泄露率达67.9%,且当代理在真实环境中端到端执行任务时,同样的故障依然存在。我们开源AgentCIBench,旨在推动更安全的计算机使用代理开发,并将上下文披露测试确立为部署前的安全审查标准。
文本与图像条件化的3D模型如今已能生成令人信服的资产,但在物体应占据或回避的空间控制上仍缺乏直接手段。在创作过程中,这类空间意图往往在生成开始前就已明确:椅子需适配坐姿包络空间,道具应为动作预留间隙,部件应暴露出接触表面。提示词与图像视角难以有效承载这类约束,因此亟需显式控制接口。 我们提出Arbor——一种用于文本条件化潜在3D生成的可训练附加模块。Arbor将约束网格作为原生3D控制接口引入,该接口包含三类区域:几何体应存在的包络区域、应保持空旷的回避区域、以及物体需接触的接触区域。与补全或整体物体骨架控制不同,这些网格并非目标证据,而是局部化类型化约束,甚至可包含不应出现表面的区域。Arbor将约束信号保留为几何形态,通过将约束网格转化为隐向量标记,并在冻结去噪器内部学习路由附加机制,使每个潜在区域都能接收与其空间位置相关的约束部分。 我们在包含包络、回避与接触约束的自动化及艺术家策划控制基准上评估Arbor,并将指标趋势与用户偏好研究进行对比。即便未设置专门的合规性损失,Arbor仍能在固定约束下提升约束遵守度,同时保持物体质量与多样性。
网格是常见的3D场景表示之一,但由于其表示包含重要的对称性(如面和顶点的排列不变性),直接生成网格颇具挑战。MeshFlow学习直接以三角网格汤的形式生成三角形网格,避免了将网格序列化为冗长自回归序列的需求。我们采用等变最优传输流匹配模型,该模型尊重三角网格汤的关键对称性:面的任意排列以及每个面内顶点的排列。 为实现这一目标,我们对扩散Transformer架构提出了一种简单而有效的改进,构建了一个可扩展的网络,能够在保持所需等变性的同时建模速度场。此外,我们引入了一种基于最优传输的训练目标,通过消除违反这些对称性的监督信号来改善收敛性。MeshFlow在网格质量上与最先进的自回归网格生成器相当,同时在推理过程中实现了约18倍的加速。项目页面位于https://qiisun.github.io/MeshFlow/。
随着检索增强生成与语义搜索的快速普及,选择合适的嵌入和检索配置日益困难。大型检索基准测试虽全面,但在开发过程中重新运行代价过高,且缺乏在相同条件下跨多模型比较生产环境配置(如降维、量化、重排序)的基础设施。为此,我们提出HAKARI-Bench——一个轻量级基准测试框架,将现有检索套件重构为小型数据集(Nano-sets):以统一格式覆盖43种语言的35个基准测试与551项任务,支持在相同条件下、不依赖具体模型地比较五大检索家族(BM25、稠密检索、稀疏检索、延迟交互、重排序器)及其效率变体。在55个模型上,其整体排名与官方MTEB检索v2、MMTEB检索v2及英文BEIR(完整版)的斯皮尔曼相关系数均高于0.97。HAKARI-Bench并非替代完整评估,而是实现快速模型选择、回归检测以及解读质量-效率帕累托前沿。代码、数据和排行榜均采用MIT许可协议发布。
从单目视频重建动态非刚体对象需要将直接观测的视觉线索与几何和外观的数据驱动先验相结合。现有方法要么直接从视觉输入学习预测4D表示,要么初始化一个3D表示,随后基于视频证据对其进行变形和优化。然而,前者受限于4D训练数据的稀缺性,后者仅在初始重建阶段利用先验,之后完全依赖视频监督;两者均难以处理具有大形变和遮挡的复杂野外场景。我们提出Lift4D,一种测试时优化框架,同时解决了这两个局限性。首先,我们调整现有单视图3D重建模型,通过因果潜在条件生成时间一致性的逐帧预测,为可变形3D高斯飞溅表示提供连贯的初始化。然后,我们通过遮挡感知优化对此表示进行“雕刻”,使其匹配输入视频:在忠实恢复可见表面细节的同时,利用视图条件扩散先验完成未观测区域。我们证明,Lift4D在4D重建方面显著优于先前方法,尤其在具有严重遮挡和非刚性运动的挑战性野外序列上表现突出。
生成式音乐系统如今能够根据文本提示生成令人印象深刻的音频,但这些音频输出作为音乐结构来说,难以检查、编辑和诊断。我们提出Libretto,一个面向代理的符号音乐生成与修订框架。Libretto采用基于大语言模型的原生语法,包含显式的起始时隙、声部和小节层级组织,然后通过节律、和声、旋律、织体、曲式和变奏等维度,在语料库校准的统计空间中评估每首作品。相同的结构轴支持检索、诊断、抄袭风险控制以及迭代式自我修订。在空缺填充、参考引导的全曲生成、渐进式变形以及教育性音乐生成等任务中,Libretto将符号音乐从原始的令牌序列转变为可供语言模型代理测量和编辑的对象。
电影制作要求精确的运动控制和参考图像合成——现有方法分别处理这些能力。基于点轨迹条件的图像到视频模型将内容插入限制在首帧,而参考到视频模型缺乏对参考内容跨帧整合的细粒度时空控制。 我们提出Go-with-the-Track,通过联合条件化多个参考图像和参考锚定点轨迹,统一了上述两种能力——将传统点轨迹扩展为显式建立生成帧与参考图像之间的对应关系,从而在整段视频中实现精确的合成与运动控制。 为此,我们引入了空间感知的点轨迹嵌入,该嵌入通过坐标级MLP结合时间池化,编码点轨迹坐标的完整序列。这种表示捕获了每个点轨迹的空间特征(作为唯一标识符),同时嵌入相似度与空间邻近性直接相关,增强了模型区分和关联点轨迹的能力。我们通过轻量适配器将这些点轨迹注入视频扩散Transformer,在解决像素到分块分辨率不匹配问题的同时,避免了朴素点轨迹降采样导致的显著运动细节丢失。 采用混合训练策略,在动态、静态及合成场景视频数据集上联合训练,以增强运动可控性。实验表明,Go-with-the-Track在单一模型中实现了卓越的运动与参考控制,并支持新功能:基于点轨迹驱动的多参考条件视频生成,以及针对静态和动态场景的相机控制。项目页面:https://eyeline-labs.github.io/Go-with-the-Track/
优化预训练数据组成对于提升大语言模型的泛化能力至关重要。虽然动态混合策略通过捕捉训练过程中的动态变化优于静态策略,但现有方法难以在计算效率、样本效率以及应对多样化流程的结构灵活性之间取得平衡。为此,我们提出演员-评论家在线数据混合方法(AC-ODM),该方法从强化学习视角处理数据混合问题,采用参数化策略,并在理论上证明该策略可作为动态线性替代函数,最大化梯度的正向干涉效应。为增强实际应用的灵活性,AC-ODM支持两种运行模式:(i)代理模式,适用于固定且预准备好的语料库,此时基于小模型学习到的策略可迁移至更大的目标模型;(ii)非代理模式,适用于无需先验知识、从头开始的直接端到端训练。实验表明,在各种架构下,AC-ODM在收敛速度和下游任务准确率方面显著优于现有方法。在Pythia-1B模型上,相比竞争性基线,AC-ODM最多可减少66%的训练步数达到最优验证困惑度,MMLU准确率相对提升27.5%,HumanEval的pass@1指标提升2.23倍,同时每步的平均墙钟时间几乎可忽略不计(增加0.4%),仅增加2%的额外内存开销。代码已开源:https://github.com/DANG-ai/AC-ODM。
随着自动驾驶汽车在国际上的持续扩展,并采用多模态系统(如视觉语言模型VLM)作为其动作模型的认知核心,这些系统在新环境中的泛化能力如何?特别是在新地理区域的分布外(OOD)边缘场景中表现如何?本文针对这一开放性问题展开了全因子分析,研究对象包括利马的人类驾驶员、纽约市的人类驾驶员以及视觉语言模型,并向他们展示了分别采集自利马和纽约的行车记录仪视频——在视觉问答(VQA)范式下提出多种类型的问题。我们特意选择了这两个极具驾驶挑战性的城市(目前尚无自动驾驶汽车公司在此运营),问题涵盖四大类别:事实型、评分型、反事实型和推理型。我们发现,人类与VLM在回答上存在分歧——尽管这种差异受到问题类型的影响,而人类(无论来自利马还是纽约)的回答则较为相似。出乎意料的是,我们并未发现人类或VLM的回答因地理因素而产生显著差异,这很可能归因于其高度的分布外特性。我们的数据集可通过以下链接获取:https://huggingface.co/datasets/Artificio/robusto-2
我们介绍ShotcreteDepth,这是一个来自建筑领域的双模态数据集,同时捕捉了主动喷射混凝土过程和通用建筑环境。该数据集包含在恶劣真实世界条件下获取的立体RGB图像和LiDAR点云,这些条件包括高浊度和低照度。此类条件会对传感器测量造成不利影响,导致观测量不完整且充满噪声,给自主应用中的感知系统带来重大挑战。除了数据集外,我们还发布了一款轻量级标注工具,用于高效标注LiDAR点云。ShotcreteDepth包含11,252个时间同步的数据样本,其中220个已标注用于评估目的。该数据集可支持立体匹配、深度补全和深度估计研究,能够紧密反映工业场景中的操作复杂性。项目仓库:https://github.com/dtu-pas/shotcrete-depth
本文介绍了我们在ICME 2026举办的学术文本到音乐(ATTM)Grand Challenge效率赛道的参赛方案。除了挑战协议中规定的FAD-CLAP和CLAP评分之外,我们还引入了来自TuneJury的基于人类偏好的学习奖励机制——TuneJury是一个在公开音乐偏好数据集上训练的双重成对排序器。该奖励既可作为训练时的条件信号,也可作为样本筛选的标准。整个流程在120M参数的FluxAudio-S骨干网络上整合了五项工程决策,其中四项应用于训练阶段,一项应用于推理阶段:(i)训练时奖励条件化,同时作为推理时无分类器引导(CFG)的辅助维度;(ii)对五种评分条件化架构进行扫描,训练与推理阶段采用不同变体;(iii)在排名前10%的数据上执行专家迭代;(iv)通过短时偏好微调(CRPO)实现音频-文本对齐;(v)推理后处理联合使用CFG、源分离及响度归一化。基于100条Song Describer提示的逐阶段分解表明:训练时奖励条件化作为功能性条件维度发挥作用,专家迭代是主要贡献因素,偏好微调阶段仅带来噪音级别的增益,而推理时的评分标量在流程末端已趋于饱和。
大语言模型(LLMs)正越来越多地被用于支持软件开发,但它们在游戏开发实际应用场景中的实用性仍有待深入探索,尤其是在生成的代码需要集成到现有游戏软件系统的情况下。本文针对自定义Python/Pygame无限跑酷游戏中的GPT-4o模型,开展了一项探索性的实证案例研究。研究选取了六项开发任务:三项局部重构任务和三项涉及游戏玩法功能生成的任务。通过软件度量、单元测试和手动游戏评估对生成的实现方案进行了评估。在该案例研究中,三项重构任务在功能层面均成功完成,而三项游戏玩法功能生成任务中仅有一项实现了正确集成的功能。结果表明,在此场景下,GPT-4o处理局部变换的可靠性高于需要跨多个现有系统实现新游戏交互的任务。鉴于该探索性单一案例的设计,这些结果更宜视为指示性观察,而非类别层面模型性能的可推广证据。总体而言,本文通过透明化的案例叙事,揭示了LLM辅助重构与游戏玩法功能生成在现有游戏软件系统中的机遇与局限。
随着城市区域不断扩张,停车场自动监测对于建设高效可持续的城市至关重要。本文提出一种无需目标停车场标注样本的自监督停车位占用识别方法。基于自监督迁移学习微调框架,所提出的训练策略包含两个自监督阶段:首先在无标注通用数据上预训练,随后在无标注目标特定数据上继续训练,最后仅使用通用停车场标签进行监督微调。我们采用搭载ResNet-50编码器的SimCLR模型,并在三个公开数据集(PKLot、CNRPark-EXT和PLds)上采用留一环境交叉验证协议进行评估。同时提出两阶段部署策略:初始部署强通用模型,随后结合部署前N天收集的无标注图像,以自监督方式构建专业模型。实验表明,仅强通用模型即可超越监督与自监督基线方法,达到97.2%的平均准确率;采用所提两阶段策略后,准确率进一步提升至97.8%。这些结果证明,自监督学习能够为现实停车场占用监测提供可扩展且低标注成本的解决方案。我们训练的模型及源代码已在 https://github.com/LoanMaikon/Parking-Spot-Occupancy-Recognition 公开。