每日精选AI研究论文及翻译
Seedance 2.0是一款全新的原生多模态音视频生成模型,于2026年2月初在中国正式发布。相较于前代Seedance 1.0和1.5 Pro版本,Seedance 2.0采用统一高效的大规模多模态音视频联合生成架构,通过整合业界迄今最全面的多模态内容参考与编辑能力套件,可支持文本、图像、音频、视频四种输入模态。该模型在视频与音频生成的所有关键子维度均实现显著且全面的提升,在专家评测与公开用户测试中均展现出与领域领先水平相媲美的性能。Seedance 2.0支持直接生成时长为4至15秒的音视频内容,原生输出分辨率涵盖480p与720p。针对多模态参考输入,其当前开放平台最高支持3段视频、9张图像及3段音频。此外,我们还推出Seedance 2.0 Fast版本,作为Seedance 2.0的加速变体,专为低延迟场景提升生成速度。Seedance 2.0在基础生成能力与多模态生成性能上实现重大突破,为终端用户带来更具沉浸感的创作体验。
为实现与现实世界交互的具身通用人工智能,多模态大语言模型(MLLM)智能体仍面临响应延迟、反馈稀疏和错误不可逆等挑战。电子游戏凭借其丰富的视觉观测与闭环交互特性,成为需要细粒度感知、长程规划和精准控制的理想测试平台。然而,异构动作接口与启发式验证方法当前阻碍了对这些能力的系统化评估。为此,我们推出GameWorld基准测试框架,旨在通过浏览器环境对MLLM作为通用游戏智能体进行标准化可验证评估。研究涵盖两类游戏智能体接口:(i)直接发送键鼠指令的计算机使用型智能体;(ii)通过确定性语义动作解析在语义动作空间操作的通用多模态智能体。GameWorld包含34款异构游戏与170项任务,每项任务均配备可进行结果验证的状态指标。对18组模型-接口组合的测试表明,即使最优智能体仍远未达到人类玩家的游戏水平。全基准重复测试的大规模实验验证了该基准的鲁棒性,而针对实时交互、上下文记忆敏感性和动作有效性的深入研究则揭示了游戏智能体面临的更多挑战。通过提供标准化、可验证、可复现的评估框架,GameWorld为推进多模态游戏智能体及其他领域的研究奠定了坚实基础。项目页面详见https://gameworld-bench.github.io。
当前大多数视觉生成奖励模型将丰富的人类判断简化为单一未解释的分数,丢弃了偏好背后的推理过程。我们证明,通过训练奖励模型在评分前生成明确的多维度评析,可将其从被动评估工具转变为主动优化工具,通过两种互补方式改进生成器:在训练阶段,结构化理据为强化学习提供可解释的细粒度奖励;在测试阶段,"生成-评析-优化"循环将评析转化为针对性提示词修订,无需参数更新即可提升输出质量。为免去昂贵的理据标注成本,我们提出偏好锚定推理框架(PARROT),通过锚定生成、一致性过滤和蒸馏三个原则性步骤,从现有偏好数据中还原高质量理据。由此得到的RationalRewards模型(80亿参数)在开源奖励模型中实现偏好预测的最优性能,与Gemini-2.5-Pro相当,而训练数据量比同类基线少10-20倍。作为强化学习奖励,它在文本到图像和图像编辑任务中持续优于标量奖励模型。最引人注目的是,其测试时评析优化循环在多个基准测试中达到甚至超越基于强化学习的微调效果,这表明结构化推理能激发现有生成器中被次优提示词所掩盖的潜在能力。
人工智能代理被期待在数百种职业领域(从急诊分诊到核反应堆安全监控再到海关进口处理)执行专业工作,然而现有基准只能评估存在公共环境的少数领域。我们推出OccuBench基准,涵盖10个行业类别、65个专业领域的100个真实世界专业任务场景,通过语言世界模型(LWM)利用LLM驱动的工具响应生成来模拟领域特定环境。我们的多智能体合成流程能自动生成具有可解性保证、难度校准和文档 grounded 多样性的评估实例。OccuBench从两个互补维度评估智能体:跨专业领域的任务完成能力,以及受控故障注入(显性错误、隐性数据退化与混合故障)下的环境鲁棒性。我们对8个模型系列的15个前沿模型进行评估发现:(1)没有单一模型能在所有行业领先,各自具有独特的职业能力图谱;(2)隐性故障(数据截断、字段缺失)比显性错误(超时、500状态码)和混合故障更具挑战,因其缺乏明确错误信号且需智能体自主检测数据退化;(3)模型规模扩大、代际更新和推理投入增加能持续提升性能——GPT-5.2从最小到最大推理投入时性能提升27.5分;(4)强智能体不一定是优秀的环境模拟器,模拟器质量对基于LWM的评估可靠性至关重要。OccuBench首次实现了对AI代理在专业职业任务上的系统性跨行业评估。
三维场景的空间推理是具身智能的核心能力,然而几何标注的高成本持续制约着模型的持续改进。自演进范式虽前景可期,但其依赖模型共识构建伪标签的做法会导致训练过程强化而非修正模型自身的几何误差。我们发现三维空间推理独有的特性可突破此局限:真实标注是底层几何的确定性结果,可直接通过点云和相机位姿精确计算而无需模型参与。基于此洞见,我们提出面向三维空间推理的自演进框架SpatialEvo,其核心为确定性几何环境(DGE)。DGE通过显式几何验证规则将16类空间推理任务形式化,将未标注三维场景转化为零噪声的交互式验证器,以客观物理反馈替代模型共识。单一共享参数策略在DGE约束下协同演进问答双角色:提问者基于场景观测生成符合物理规律的空间问题,求解者则依据DGE验证的真实标注推导精确答案。任务自适应调度器内生地将训练聚焦于模型最薄弱环节,无需人工设计即可形成动态课程。在九个基准测试上的实验表明,SpatialEvo在3B和7B规模下均取得最高平均分,在空间推理任务上持续提升,且未损害通用视觉理解能力。
尽管带可验证奖励的强化学习(RLVR)通过优化条件分布P(y|x)显著增强了大语言模型的推理能力,但其潜力从根本上受限于基础模型现有的输出分布。在预训练空间中优化边缘分布P(y)能突破这一瓶颈,既能编码推理能力又可保持广泛探索潜力。然而传统预训练依赖静态语料库进行被动学习,会导致分布偏移从而阻碍针对性推理增强。本文提出预训练空间强化学习(PreRL),将奖励驱动的在线更新直接应用于P(y)。我们从理论与实验双重角度验证了log P(y)与log P(y|x)之间的强梯度对齐性,确立了PreRL作为标准RL可行替代方案的可靠性。更重要的是,我们发现了PreRL中的关键机制:负样本强化(NSR)能成为推理能力的超常驱动引擎。NSR-PreRL可快速剪枝错误推理空间,同时激发内生反思行为,使转换思维和反思思维分别提升14.89倍和6.54倍。基于这些发现,我们提出双空间强化学习(DSRL)——一种策略重生方案:先通过NSR-PreRL初始化模型以拓展推理边界,再转入标准RL进行细粒度优化。大量实验表明DSRL持续超越强基线模型,证明预训练空间剪枝能有效引导策略朝向精炼的正确推理子空间演进。
基于记忆的自我进化已成为编码智能体的一种前景广阔的研究范式。然而,现有方法通常将记忆应用限制在单一任务领域,未能充分利用现实编程问题中存在的共享基础设施(如运行时环境和编程语言)。为突破这一局限,我们通过构建跨领域统一记忆池来研究记忆迁移学习(MTL)。我们在6个编码基准测试中评估了四种记忆表征方式(从具体执行轨迹到抽象认知洞察)的性能。实验表明,跨领域记忆通过迁移元知识(如验证流程)而非具体任务代码,使平均性能提升3.7%。关键发现是:抽象程度决定可迁移性——高层次洞察具有良好泛化能力,而低层次轨迹因过度具体化常引发负迁移。此外,我们证实迁移效果随记忆池规模扩大而增强,且记忆可在不同模型间实现迁移。本研究为突破单领域记忆孤岛建立了实证设计原则。项目页面:https://memorytransfer.github.io/
AI编程助手已成为开发者工作流的核心,然而现有解决方案均将其推理能力局限于特定交付形态中,如命令行工具、IDE插件或网页应用。这种限制在企业尝试跨异构工程环境复用这些能力时形成了系统性障碍。为解决这一挑战,我们推出Sema Code——一个基于可嵌入、可插拔、框架优先原则构建的开放式AI编程框架。Sema Code将核心智能体引擎与所有客户端层完全解耦,将其作为独立npm库发布,可供任何运行时环境编程驱动。围绕该架构,我们设计了八大核心机制:多租户引擎隔离、支持安全会话重建的FIFO输入队列、自适应上下文压缩、多智能体协作调度、基于智能任务清单的流程管理、四层异步权限控制、覆盖MCP协议/技能/插件的三级生态集成体系,以及执行与观察权限分离的后台任务框架。这些机制共同解决了将复杂智能体引擎转化为可共享、可编程核心的工程挑战。为展现其架构灵活性,同一Sema Core引擎同时驱动着VSCode扩展插件与被命名为SemaClaw的多通道消息网关,后者可统一处理Telegram、飞书等平台的智能体交互。这展示了两种根本不同的产品形态共享同一推理内核,仅在最外层客户端产生差异的设计理念。
语言模型智能体正日益广泛地应用于从AI编程到具身AI等复杂开放式决策任务中。这类场景的核心需求是智能体既能探索问题空间,又能有效利用已获取的知识。然而,在无法获取智能体内部策略的情况下,系统性地从观测行为中区分并量化探索与利用行为仍具挑战。为此,我们基于实际具身AI场景设计了可控环境:每个环境包含部分可观测的二维网格地图和未知任务的有向无环图(DAG),可通过程序化调整地图生成机制来侧重考察探索或利用难度。为实现策略无关的评估,我们设计了从智能体行为中量化探索与利用误差的指标。通过对多种前沿语言模型智能体的评估,发现即使最先进的模型在我们的任务中也表现不佳,且不同模型呈现出截然不同的失败模式。进一步观察表明,推理模型能更有效地解决任务,同时通过最小化的约束工程即可显著提升探索与利用能力。代码已发布于https://github.com/jjj-madison/measurable-explore-exploit。
在强化学习中,给定提示后,我们会从模型中采样一组补全结果并为其评分。随之产生两个问题:哪些补全结果应获得概率质量?参数应如何调整以实现这种变化?标准策略梯度方法同时回答这两个问题,因此更新可能因学习率、梯度裁剪及其他优化器选择而出现超调或欠调。我们提出目标策略优化(TPO)方法,将这两个问题分离。给定评分后的补全结果,TPO构建一个目标分布q_i ∝ p_i^{旧} exp(u_i),并通过交叉熵使策略拟合该分布。采样补全对数几率的损失梯度为p^θ - q,当策略与目标匹配时梯度消失。在表格多臂赌博机、Transformer序列任务以及数十亿参数LLM的RLVR任务中,TPO在简单任务上与PG、PPO、GRPO和DG表现相当,而在稀疏奖励场景下显著优于这些方法。代码详见https://github.com/JeanKaddour/tpo。
2026年初OpenClaw的崛起,标志着数百万用户开始将个人AI智能体部署至日常生活的重要转折点,从旅行规划到多步骤研究等任务均实现委托处理。这种规模的应用表明两个并行的发展弧线已抵达临界点:其一是AI工程范式的转变——从提示与上下文工程演进至约束系统工程,即设计完整基础设施以将无约束智能体转化为可控、可审计、生产可靠系统的关键方法。随着模型能力趋同,约束层正成为架构差异化的主战场。其二是人机交互从离散任务向持续情境感知协作关系的演进,这要求构建开放、可信且可扩展的约束基础设施。我们推出开源多智能体应用框架SemaClaw,通过约束工程向通用个人AI智能体迈出关键一步。核心创新包括基于有向无环图的双阶段混合智能体团队编排方法、PermissionBridge行为安全系统、三层上下文管理架构,以及用于自动化个人知识库构建的智能维基技能。
流式三维重建旨在从视频流中恢复相机姿态与点云等三维信息,其技术核心需兼顾几何精度、时序一致性与计算效率。受同步定位与建图(SLAM)原理启发,我们基于几何上下文变换器(GCT)架构提出LingBot-Map——一种面向流式数据场景重建的前馈式三维基础模型。该模型的显著特性在于精心设计的注意力机制,该机制通过锚点上下文、姿态参考窗和轨迹记忆模块,分别解决坐标系锚定、密集几何线索提取和长程漂移校正问题。这一设计在保持流式状态紧凑性的同时留存了丰富的几何上下文,使其能在518×378分辨率输入下以约20帧/秒的效率稳定处理超万帧的长序列数据。在多类基准测试中的广泛评估表明,本方法相较于现有流式重建与基于迭代优化的方法均展现出更优性能。
前馈式三维重建模型虽效率高但缺乏灵活性:一旦训练完成,其推理过程采用零样本方式,无法适配测试场景。这导致视觉上合理的重建结果常存在误差,尤其在遮挡、镜面反射和模糊线索等情况下。为此,我们提出自由几何框架(Free Geometry),使前馈式三维重建模型能在无三维真值标注的情况下实现测试时的自我进化。核心发现是:当模型获取更多视角时,其重建结果会更可靠且具备视角一致性。基于此特性,我们对测试序列进行帧掩码以构建自监督任务。该框架通过对比完整观测与部分观测的跨视角特征一致性,同时保持被遮蔽帧所隐含的成对关系,利用轻量级LoRA更新实现快速参数校准(单GPU每数据集耗时不足2分钟)。在4个基准数据集上的实验表明,本方法能持续提升包括Depth Anything 3和VGGT在内的前沿基础模型性能,相机位姿精度平均提升3.73%,点云图预测精度平均提升2.88%。代码已开源:https://github.com/hiteacherIamhumble/Free-Geometry。
连续扩散技术已成为图像等多种数据模态实现高保真度、可控性及少步生成的基础。然而在语言建模领域,由于稀疏数据空间和尚未充分探索的设计空间,以往的连续扩散语言模型(DLM)始终落后于离散模型。本研究通过将嵌入空间的DLM与基于Bregman散度的流匹配相结合,并引入三项关键创新,成功缩小了这一差距:首先,我们推导出基于常微分方程的新型负对数似然边界,为连续流式语言模型提供理论评估依据;其次,提出信息均匀性原则用于设置噪声调度,据此推导出基于Gumbel分布的可学习噪声调度器;最后,通过引入自条件机制改进训练流程,发现其对嵌入空间DLM的似然度和生成质量均有提升,且效果显著区别于离散扩散。综合这些创新,LangFlow在困惑度(PPL)和生成困惑度(Gen. PPL)指标上均达到顶尖离散DLM水平,在LM1B数据集上PPL达30.0,OpenWebText上达24.6,甚至在7个基准测试中有4个零样本迁移任务超越自回归基线。LangFlow首次有力证明连续扩散是语言建模领域极具前景的研究范式。项目主页:https://github.com/nealchen2003/LangFlow
尽管视觉-语言领域在多语言多模态信息融合方面取得了显著成就,但目前仍缺乏专门评估视觉-语言系统人本对齐的框架。针对这一空白,我们提出两项创新贡献:首先,我们提出"人为区域适配"新范式,该范式旨在优化模型对特定区域语境的关联性,同时确保保持全局泛化能力;其次,我们提出名为"地理泛化简易适配法"的轻量级适配方案,通过区域数据筛选与模型融合实现高效适配。基于三大视觉-语言架构(大规模视觉-语言模型、文生图扩散模型、视觉-语言嵌入模型)的系统性实验,以及针对东南亚区域的案例研究表明,人为区域适配具有重要价值,GG-EZ方法能显著提升东南亚文化相关性指标5-15%,在维持98%以上全局性能的同时甚至偶有超越。本研究确立了人为区域对齐作为多模态视觉-语言模型区域化应用的基础范式,并提出了在保持全局泛化前提下优化区域价值对齐的轻量高效基准方法。
尽管大语言模型(LLM)已使AI研究智能体能够执行独立科研任务,但实现复杂现实工作流程(如LLM训练)的自动化仍面临重大挑战。本文提出TREX多智能体系统,可自动化执行LLM训练全生命周期。通过协调两大核心模块——研究器与执行器——该系统能无缝完成需求分析、开放域文献数据调研、训练策略制定、数据配方准备及模型训练评估。我们将多轮实验过程建模为搜索树,使系统能够高效规划探索路径、复用历史结果,并从迭代试验中提炼高层洞察。为评估自动化LLM训练能力,我们构建了FT-Bench基准测试集,包含源自真实场景的10项任务,涵盖基础模型能力优化到领域特定任务性能提升。实验结果表明,TREX智能体能持续优化模型在目标任务上的性能表现。
在线策略知识蒸馏(OPD)利用教师模型的令牌级监督,通过学生模型自身产生的交互数据对学生进行训练。并非所有令牌位置都同等重要,但现有对令牌重要性的认知存在局限性。我们直接提出核心问题:在OPKD中哪些令牌携带最有效的学习信号?研究发现,信息量丰富的令牌来源于两个区域:学生模型熵值高的位置,以及学生模型熵值低但师生分歧度高的位置——后者对应学生模型过度自信却判断错误的情形。 实证表明,学生熵是强效的一阶指标:基于熵采样保留50%的令牌进行训练,效果等同或优于全令牌训练,同时峰值内存占用降低达47%。但仅依赖熵会遗漏第二个关键区域。当我们单独提取低熵高分歧令牌时,仅使用不足10%的令牌进行训练即可接近全令牌基线效果,证明过度自信令牌虽在纯熵准则下几乎不可见,却承载着密集的纠错信号。 基于这些发现,我们提出TIP框架(在线策略蒸馏中的令牌重要性),构建以学生熵和师生分歧度为双轴的分层体系,并从理论层面阐释了熵值有效但存在结构局限的原因。该视角催生了结合不确定性与分歧度的类型感知令牌选择机制。我们在Qwen3、Llama和Qwen2.5构成的三个师生模型组合上验证该框架,测试集涵盖MATH-500和AIME 2024/2025,并在长程智能体规划的DeepPlanning基准中实现突破:仅使用不足20%的Q3令牌训练即可超越全令牌OPD效果。实验通过扩展OPD代码库(https://github.com/HJSang/OPSD_OnPolicyDistillation)实现,该库支持有限GPU预算下对大模型进行内存高效的蒸馏训练。
当前广泛使用的自然语言转SQL(NL2SQL)解决方案评估指标——执行准确率(EX)正日益显现其局限性。该指标对语法变化敏感,忽略了问题可能存在多重解释的可能性,且易受错误标注SQL的误导。为此,我们提出ROSE这一以意图为核心的评估指标,其关注点从参照依赖范式下的标注SQL一致性转向预测SQL是否真正解答了用户问题。ROSE采用对抗性的证明者-反驳者级联框架:SQL证明者独立评估预测SQL相对于用户意图的语义正确性,而对抗性反驳者则利用标注SQL作为证据对此判断进行挑战和优化。在专家对齐的验证集ROSE-VEC上,ROSE与人类专家的评估一致性达到最优,科恩卡帕系数较次优指标提升近24%。通过对19种NL2SQL方法的大规模重评估,我们进一步揭示了四项重要发现。现公开发布ROSE与ROSE-VEC,以推动更可靠的NL2SQL研究发展。
当前可验证环境下的后训练方法主要分为两类。基于强化学习的方法(RLVR)依赖二元奖励机制,虽具有广泛适用性和强大功能,但训练期间仅能提供稀疏的监督信号。蒸馏法则提供密集的词元级监督,通常需借助外部教师模型或高质量演示样本,但这类监督数据的获取成本高昂或难以获得。我们提出自蒸馏零样本方法(SD-Zero),该方法在训练样本效率上显著优于强化学习,且无需外部教师模型或高质量演示样本。SD-Zero通过训练单一模型扮演双重角色:生成器负责生成初始响应,修订器则基于该响应及其二元奖励生成优化后的响应。我们采用同策略自蒸馏技术,以修订器在生成器响应及奖励条件下的词元分布作为监督信号,将修订能力蒸馏至生成器。本质上,SD-Zero实现了将二元奖励转化为密集词元级自监督的训练机制。在数学与代码推理基准测试中,基于Qwen3-4B-Instruct和Olmo-3-7B-Instruct模型的实验表明,在相同问题集和训练样本预算下,SD-Zero相比基线模型性能提升至少10%,且显著优于拒绝微调(RFT)、GRPO和自蒸馏微调(SDFT)等强基线方法。大量消融实验揭示了该算法的两大新颖特性:(a)词元级自定位能力——修订器可根据奖励识别生成器响应中需修正的关键词元;(b)迭代自进化机制——通过定期同步教师模型,将答案修订能力的提升持续反哺至生成性能的优化。
界面元素自然语言定位技术(GUI grounding)旨在根据自然语言查询从截图中定位界面元素,但在处理小型图标和密集布局时仍面临挑战。基于测试时放大方法通过裁剪图像并以更高分辨率重新推理来改善定位效果,但这类方法对所有实例采用固定尺寸的均匀裁剪,忽略了模型对每个案例的实际置信度。我们提出UI-Zoomer,一种无需训练的自适应放大框架,将放大操作的触发条件和尺度量化为预测不确定性评估问题。置信感知门控机制通过融合随机候选框的空间一致性与词元级生成置信度,仅在定位不确定时选择性触发放大操作。当触发放大时,基于不确定性的裁剪尺寸模块将预测方差分解为样本间位置离散度和样本内边界框扩展度,通过全方差定律计算每个实例的自适应裁剪半径。在ScreenSpot-Pro、UI-Vision和ScreenSpot-v2数据集上的大量实验表明,该框架在多种模型架构下均能持续提升基线性能,分别实现最高+13.4%、+10.3%和+4.2%的增益,且无需额外训练。
随着LLM智能体逐渐将技能作为可复用的组合单元,当前各平台虽能共享技能资源,却普遍将其视为原始上下文处理,导致同一技能在不同智能体间表现不一致。这种脆弱性严重制约了技能的可移植性与执行效率。 为解决该问题,我们分析了11.8万个技能,并从传统编译器设计中获得启发:将技能视为代码,将LLM视作异构处理器。为实现可移植性,我们将技能需求解构为基本能力集,并量化评估不同模型-框架组合对这些能力的支持程度。基于此能力画像,我们提出SkVM——专为可移植高效技能执行设计的编译与运行时系统。编译阶段,SkVM执行基于能力的编译、环境绑定和并发提取;运行时则通过JIT代码固化与自适应重编译进行性能优化。 我们在8种规模各异的LLM和3类智能体框架上开展评估,覆盖SkillsBench及典型技能任务。实验表明:SkVM能显著提升不同模型与环境下的任务完成率,同时降低最高40%的token消耗;性能方面,通过增强并行性实现3.2倍加速,借助代码固化将延迟降低19-50倍。
实现物理可信的非刚性物体重建仍是一项重大挑战。现有方法虽能利用可微分渲染进行逐场景优化,恢复几何形态与动态特性,但需耗费大量调参或依赖人工标注,限制了其实用性与泛化能力。为此,我们提出ReconPhys——首个基于单目视频的前馈式框架,可同步学习物理属性估计与3D高斯溅射重建。该方法采用通过自监督策略训练的双分支架构,无需真实物理标签。给定视频序列后,ReconPhys能同步推断几何结构、外观属性与物理参数。在大规模合成数据集上的实验表明其卓越性能:在未来帧预测任务中,本方法以21.64 PSNR显著超越现有优化基线方法的13.27,同时将倒角距离从0.349降低至0.004。关键突破在于,ReconPhys可实现秒级(<1秒)推理,而传统方法需耗时数小时,这为机器人学与图形学领域快速生成可直接仿真的数字资产提供了新途径。
高动态范围(HDR)影像能够丰富而真实地呈现场景辐射度,但由于其与生成模型训练时所使用的有界感知压缩数据不匹配,对该类模型的生成任务仍具挑战性。传统解决方案是为HDR学习新的表征方式,但这会引入额外的复杂性和数据需求。本研究提出一种更简捷的HDR生成方法:利用预训练生成模型已捕获的强视觉先验。我们发现,电影工业管线中广泛采用的对数编码方式可将HDR影像映射至与这些模型潜在空间自然对齐的分布,仅需轻量级微调即可直接适配,无需重新训练编码器。为复原输入中不可直接观测的细节,我们进一步引入基于相机模拟退化的训练策略,促使模型从已学先验中推断缺失的高动态范围内容。结合这些创新点,我们使用经最小化适配的预训练视频模型实现了高质量HDR视频生成,在多样化场景和复杂光照条件下均取得显著成果。研究表明,尽管HDR代表完全不同的成像机制,只要选择与其学习先验对齐的表征方式,无需重构生成模型即可有效处理HDR内容。
我们推出ArcDeck——一个将论文转幻灯片任务构建为结构化叙事重建的多智能体框架。与现有直接概括原始文本生成幻灯片的方法不同,ArcDeck显式建模源论文的逻辑脉络。该框架首先解析输入内容以构建语篇树并生成全局纲领文档,确保高层意图得以保留。这些结构化先验信息随后指导迭代式多智能体优化流程,由专业化智能体在最终视觉布局设计前,持续对演示纲要进行批判性修订。为评估该方法,我们还构建了ArcBench基准数据集,该全新整理的学术论文-幻灯片配对基准实验表明,显式语篇建模与角色化智能体协作相结合,能显著提升生成演示文稿的叙事流畅度与逻辑连贯性。
基于多模态大语言模型的图形用户界面智能体已在复杂界面交互任务中展现出强大能力。然而,长周期任务场景仍存在挑战,由于承担了超出其内在能力的任务,这些智能体普遍面临记忆衰退、进度混淆和数学幻觉等问题。为解决这些难题,我们提出UI-Copilot协同框架:GUI智能体专注任务执行,轻量级协处理器则按需提供记忆检索与数值计算支持。我们通过记忆解耦技术将持久化观察数据与瞬时执行上下文分离,并训练策略智能体根据任务需求选择性调用检索器或计算器模式的协处理器。为有效学习工具调用能力,我们提出工具集成策略优化算法,该算法通过单轮预测单独优化工具选择策略,基于策略的多轮推演优化任务执行效果。实验结果表明,UI-Copilot-7B在具有挑战性的MemGUI-Bench上实现了最先进性能,显著优于GUI-Owl-7B、UI-TARS-1.5-7B等同类7B规模GUI智能体。此外,在AndroidWorld测试集上,UI-Copilot-7B较基础Qwen模型实现了17.1%的绝对性能提升,彰显了该框架对真实世界GUI任务的强大泛化能力。
受搜索查询语义模糊、多跳推理的特性以及现实网络结果多模态、异构且常含冲突的现状驱动,我们推出了MERRIN(多模态噪声网络环境证据检索与推理基准)——一个用于评估搜索增强智能体的人工标注基准。MERRIN通过三大核心维度衡量AI智能体的能力:识别相关模态、检索多模态证据、在噪声网络源上进行多跳推理。该基准与先前研究相比具有三个重要差异:(1)使用无显式模态提示的自然语言查询;(2)引入视频、音频等尚未充分探索的模态;(3)要求在网络搜索过程中检索复杂且常含噪声或冲突的多模态证据。我们在三种搜索场景(无搜索、原生搜索、智能体搜索)下评估了十类模型驱动的搜索智能体,包括强闭源模型(如GPT-5.4-mini、Gemini 3/3.1 Flash/Pro)和开源权重模型(Qwen3-4B/30B/235B)。实验表明MERRIN极具挑战性:所有智能体平均准确率仅为22.3%,最优模型仅达40.1%。进一步观察发现,尽管Gemini深度研究等强智能体表现更好,但因过度探索导致提升有限:它们使用更多步骤和工具,却常被冲突或部分相关的网络内容干扰而得出错误答案。与人类相比,这些智能体消耗更多资源但准确率更低,主要源于低效的源选择和对文本模态的过度依赖。这些发现凸显了开发能在噪声网络环境中进行跨模态稳健搜索与推理的智能体的必要性,使MERRIN成为评估此类能力的宝贵测试平台。
我们研究自我主权智能体这一新兴前景——即能够在不依赖人类干预的情况下,通过经济手段维持并扩展自身运作的AI系统。大语言模型与智能体框架的最新进展显著提升了智能体的实际能力,预示着从开发者控制的工具向更自主的数字行为体转变的可能性。我们分析了此类部署尚存的技术障碍,并探讨了若这类系统具备实际可行性后可能引发的安全、社会及治理挑战。项目页面详见:https://self-sovereign-agent.github.io。
大型语言模型(LLM)能够完成极其复杂的任务,但预训练过程中这些能力如何逐步形成仍缺乏细粒度认知。虽然缩放定律通过验证损失揭示了模型随算力提升的改进程度,却无法说明其技能习得的具体顺序。为弥补这一空白,我们提出"隐性课程假说":预训练过程在不同模型和数据组合中遵循着可组合且可预测的课程规律。我们通过设计一套涵盖检索、形态转换、指代消解、逻辑推理和数学运算的简单可组合任务来验证该假说,并追踪了四个参数量级(4.1亿至130亿参数)模型族的能力涌现节点。研究发现:模型达到固定准确率阈值的涌现顺序具有高度一致性(45组模型对的斯皮尔曼相关系数ρ=0.81),且复合任务通常在其子任务掌握后出现。进一步发现这种结构被编码于模型表征中——具有相似函数向量表征的任务在训练过程中也呈现相似轨迹。通过利用任务集衍生的表征空间,我们能在未经验证的情况下有效预测预训练过程中简单复合任务的训练轨迹(各模型决定系数R²介于0.68-0.84)。这些结果表明:预训练过程比损失曲线所揭示的更具结构性——技能以跨模型一致的组合顺序涌现,并可通过模型内部表征进行解读。
软件日志记录对于维护和调试复杂系统至关重要,但AI编程代理如何处理这一非功能性需求仍不明确。现有研究主要聚焦于人类开发者的日志实践,而AI编程代理的行为特征及其受自然语言指令调控的有效性尚属空白。为此,我们对81个开源仓库中的4,550个代理式拉取请求展开实证研究,通过对比人类基线日志模式,分析显式日志指令的影响。研究发现:在58.4%的仓库中,代理修改日志的频率低于人类,但其修改时的日志密度更高;显式日志指令仅占4.7%且效果有限,代理对建设性日志要求的未遵从率达67%;此外,72.5%的日志修复由人类在代码生成后完成,这些"无声清道夫"在没有明确评审反馈的情况下默默修复可观测性问题。这些发现揭示了自然语言指令的双重失效(即日志指令稀缺与代理依从性低下),表明可能需要确定性防护机制来保障一致的日志实践。
现有基于多模态大语言模型(MLLM)的分割方法(如LISA)因无法融入最新知识,常难以处理新兴实体。为解决这一挑战,我们提出新兴实体分割任务(NEST),重点研究两类对象的划分:(i)因未出现在训练数据中而被MLLM误识别的全新实体;(ii)虽存在于模型知识库中但需借助最新外部信息才能准确识别的演进实体。为支持NEST研究,我们通过自动化流程构建了NEST基准数据集,该数据集生成与新闻相关的样本以实现全面评估。此外,我们提出即插即用框架ROSE:检索增强型分割优化器,可增强任何基于MLLM的分割模型。ROSE包含四个核心组件:首先引入互联网检索增强生成模块,利用用户提供的多模态输入实时获取网络信息;随后通过文本提示增强器注入最新资讯与丰富背景知识,提升模型对演进实体的感知能力;进一步设计视觉提示增强器,借助网络图像补偿MLLM对全新实体的认知缺失;为保持效率,引入网络感知模块智能判断何时触发检索机制。实验表明,ROSE在NEST基准上显著提升性能,以19.2的gIoU优势超越基于Gemini-2.0 Flash的强检索基线。
近年来,基于大语言模型的移动端GUI智能体发展迅猛,这类系统能够根据自然语言指令自主执行多样化的设备控制任务。随着它们在标准测试集上的准确率不断提升,业界对其实景大规模部署的期待日益高涨,目前已有多款商用智能体被早期使用者采纳。然而,我们是否真的做好了将GUI智能体作为系统基础组件集成至日常设备的准备?我们认为,当前缺乏一项关键的部署前验证环节——检验这些智能体在现实威胁下能否保持性能稳定。与基于简单静态应用内容(为确保测试环境一致性必须如此)的现有基准测试不同,真实场景中的应用程序充斥着来自不可信第三方的内容,例如广告邮件、用户生成的内容及媒体等……为此,我们提出可扩展的应用内容植入框架,支持对现有应用进行灵活精准的内容修改。基于该框架,我们构建了包含动态任务执行环境与静态挑战性GUI状态数据集的测试套件。动态环境涵盖122项可复现任务,静态数据集包含从商业应用中构建的3000余个场景。通过对开源与商用GUI智能体的实验发现,所有被测智能体受第三方内容影响均出现性能显著下降,动态与静态环境中的平均误导率分别达到42.0%和36.1%。该框架与基准测试已发布于https://agenthazard.github.io。
大型语言模型正逐渐成为科研助手,但评估其基于实证数据进行推理的能力仍具挑战。基于已发表研究和人工标注的基准数据集存在发表偏倚、已知知识偏倚、标签噪声及巨大存储需求等固有局限。我们提出InfiniteScienceGym——一个程序化生成的科学知识库基准平台,配备可验证的问答任务。该模拟器通过初始种子确定性地生成包含逼真目录结构、文件及表格数据的自包含知识库,并由特权问答生成器同时生成可回答与不可回答问题及其精确答案。这种设计使得在受控环境中评估证据驱动推理、拒答能力及工具辅助分析成为可能,且无需分发大规模静态语料库。通过针对传统基准难以评估的盲点与失效模式,InfiniteScienceGym与真实科学基准形成互补。在对专有模型和开源模型的评估中,我们发现所有模型总体准确率均未超过45%,识别不可回答问题仍是主要薄弱环节,且更强模型倾向于更有效地使用工具而非单纯消耗更多计算标记。
图注意力网络(GATs)为关系数据中的节点表示学习提供了最优框架之一;然而,现有变体如经典图注意力网络主要处理静态图结构,在应用于序列数据时依赖于隐式的时间聚合。本文提出脑电时序图注意力网络(EEG-tGAT),这是一种针对交互序列中可供性分类任务优化的GATv2时序增强架构。该模型通过时序注意力机制调节不同时间片段的贡献度,并采用时序丢弃技术对时间相关观测值进行正则化处理。该设计基于以下假设:可供性数据中的时间维度在语义上具有非均匀性,且判别性信息可能随时间呈不均衡分布。在可供性数据集上的实验表明,EEG-tGAT相比GATv2实现了分类性能的提升。这一增益证实:显式编码时间重要性并增强时序鲁棒性所引入的归纳偏置,能更好地契合可供性驱动交互数据的结构特征。这些发现表明,当时间关系在任务中起关键作用时,对图注意力模型进行适度的架构调整可带来持续的性能增益。