每日精选AI研究论文及翻译
计算机使用智能体(CUAs)在自动化复杂桌面工作流程方面前景广阔,但通用智能体的发展正受限于连续高质量人类演示视频的稀缺性。近期研究强调,连续视频(而非稀疏截图)是扩展这类智能体规模的关键缺失要素。然而现有最大开源数据集ScaleCUA仅包含200万张截图,相当于不足20小时的视频资料。为突破此瓶颈,我们推出CUA-Suite——一个面向专业桌面计算机使用智能体的大规模专家演示视频生态系统,内含密集标注。其核心组件VideoCUA提供涵盖87种多样化应用的约1万项人类演示任务,包含30帧/秒的连续屏幕录制、运动学光标轨迹及多层推理标注,总计约55小时600万帧专家视频。与仅捕捉最终点击坐标的稀疏数据集不同,这些连续视频流完整保留了人机交互的时序动态,构成可无损转换为现有智能体框架所需格式的信息超集。CUA-Suite进一步提供两项互补资源:用于评估CUAs grounding与规划能力的严谨基准测试UI-Vision,以及包含5.6万张标注截图、超360万UI元素标注的大规模定位数据集GroundCUA。初步评估显示,当前基础动作模型在专业桌面应用场景中表现堪忧(任务失败率约60%)。除评估功能外,CUA-Suite丰富的多模态语料库还支持新兴研究方向,包括通用屏幕解析、连续空间控制、基于视频的奖励建模及视觉世界模型等。所有数据与模型均已开源发布。
由于视频的长序列特性包含大量时序依赖和冗余帧,基于多模态大语言模型(MLLM)的视频理解仍面临挑战。现有方法通常将MLLM视为被动识别器,直接处理完整视频或均匀采样帧,缺乏自适应推理能力。近期基于智能体的方法虽引入外部工具,但仍依赖人工设计的工作流程和“感知优先”策略,导致长视频处理效率低下。我们提出EVA——面向端到端视频智能体的高效强化学习框架,通过“总结-规划-行动-反思”的迭代推理实现“规划先于感知”。EVA能自主决策观看内容、时机与方式,实现查询驱动的高效视频理解。为训练此类智能体,我们设计了简洁有效的三阶段学习流程:监督微调(SFT)、卡尼曼-特沃斯基优化(KTO)和广义奖励策略优化(GRPO),衔接监督模仿与强化学习。我们还为每个阶段构建了高质量数据集,支持稳定可复现的训练。在六个视频理解基准测试中,EVA展现出全面能力:相较于通用MLLM基线模型提升6-12%,较现有自适应智能体方法再提升1-3%。代码与模型已开源:https://github.com/wangruohui/EfficientVideoAgent。
以往的红队测试主要聚焦于诱导大型语言模型(LLMs)生成有害文本输出,但此类方法难以捕捉智能体在多层次工具执行过程中暴露的特有漏洞——尤其是在模型上下文协议(MCP)等快速发展的生态系统中。为弥补这一空白,我们提出了一种轨迹感知的进化搜索方法T-MAP,该方法通过执行轨迹引导对抗性提示的发现。我们的技术不仅能自动生成绕过安全防护机制的攻击,还能通过实际工具交互可靠地实现有害目标。在多样化MCP环境中的实证评估表明,T-MAP在攻击实现率(ARR)上显著优于基线方法,并对包括GPT-5.2、Gemini-3-Pro、Qwen3.5和GLM-5在内的前沿模型持续有效,由此揭示了自主LLM智能体中尚未被充分探索的安全隐患。
随着多模态大语言模型(MLLMs)的发展,自主移动图形用户界面(GUI)智能体日益受到关注。然而,现有方法仍存在两大挑战:难以从失败轨迹中高效学习,以及在长周期GUI任务中因奖励稀疏导致的信用分配模糊问题。为此,我们提出UI-Voyager——一种新型两阶段自演进移动GUI智能体。第一阶段采用拒绝微调(RFT)技术,实现数据与模型在全自动循环中的持续协同进化;第二阶段引入组相对自蒸馏(GRSD)方法,通过识别群体 rollout 中的关键决策分叉点,从成功轨迹构建密集的步骤级监督信号以修正失败轨迹。在AndroidWorld平台上的大量实验表明,我们的40亿参数模型实现了81.0%的Pass@1成功率,优于近期多个基线模型并超越人类水平。消融实验与案例研究进一步验证了GRSD的有效性。该方法无需昂贵的人工数据标注,为高效、自演进、高性能的移动GUI自动化实现了重大突破。
自蒸馏已成为大语言模型一种有效的后训练范式,通常能在缩短推理轨迹的同时提升性能。然而在数学推理任务中,我们发现该方法虽能缩减响应长度,却可能导致性能下降。通过溯源分析,我们将这种性能衰退归因于认知性言语表达的抑制——即模型在推理过程中不确定性表达能力的减弱。通过控制条件上下文丰富度与任务覆盖范围的实验表明:让教师模型基于丰富信息进行条件化会压制不确定性表达,这虽能通过有限任务覆盖实现快速的域内优化,却会损害分布外性能——因为面对未见问题时,模型本可通过表达不确定性并相应调整来获得更好表现。在Qwen3-8B、DeepSeek-Distill-Qwen-7B和Olmo3-7B-Instruct上的实验显示,性能降幅最高可达40%。我们的研究结果表明:暴露适当程度的不确定性对实现稳健推理至关重要,同时强调优化推理行为不应仅局限于强化正确答案轨迹,更需关注推理过程的内在机制。
多模态大语言模型正日益作为感知核心,被部署在从机器人技术到虚拟世界的三维环境自主智能体中。这类应用要求智能体能够感知快速的状态变化、将动作正确归因于对应实体,并从第一人称视角推理并发多智能体行为——这些能力是现有基准测试未能充分评估的。我们推出GameplayQA框架,通过视频理解来评估以智能体为中心的感知与推理能力。具体而言,我们在多人3D游戏视频中以每秒1.22个标签的密度进行标注,同步记录围绕"自我-其他智能体-环境"三元体系的状态、动作和事件并发描述,这种分解方式天然契合多智能体环境。基于这些标注,我们提炼出2.4K个诊断性问答对,按认知复杂度分为三个层级,并构建了结构化干扰项分类法,可精细分析模型的幻觉产生环节。对前沿多模态大模型的评估显示,其在时间定位与跨视频关联、智能体角色归因、以及游戏决策密度处理等方面与人类表现存在显著差距。我们期待GameplayQA能推动具身人工智能、智能体感知与世界建模交叉领域的未来研究。
近期,多模态大语言模型的发展显著提升了推理任务性能,但这些改进主要依赖高质量标注数据或教师模型蒸馏,两者均成本高昂且难以规模化。为此,我们提出一种无需监督的自演进多模态推理训练框架,在不使用人工标注答案或外部奖励模型的情况下实现稳定的性能提升。对于每个输入,我们采样多条推理轨迹并联合建模其组内结构。我们采用行动者模型的自一致性信号作为训练先验,引入基于有界评判者的调节机制持续重加权不同质量的轨迹。进一步将调节后的分数建模为组级分布,并将绝对分数转换为组内相对优势,从而实现更稳健的策略更新。通过在无标注数据上采用组相对策略优化(GRPO)进行训练,我们的方法在五个数学推理基准测试中持续提升推理性能与泛化能力,为自演进多模态模型提供了可扩展的路径。代码已开源:https://github.com/OPPO-Mente-Lab/LLM-Self-Judge。
生成式优化利用大型语言模型(LLMs),通过执行反馈迭代改进各类产物(如代码、工作流或提示)。这是构建自我改进智能体的前景广阔的方法,但在实践中仍显脆弱:尽管研究活跃,仅有9%的受访智能体采用了自动化优化。我们认为这种脆弱性源于工程师在搭建学习循环时必须做出的"隐性"设计选择:优化器可编辑哪些内容?每次更新时应提供何种"恰当"的学习证据?我们研究了影响大多数应用的三个因素:初始产物、执行轨迹的信用分配范围,以及将试错批次转化为学习证据的方式。通过在MLAgentBench、Atari和BigBench Extra Hard的案例研究,我们发现这些设计决策能决定生成式优化的成败,但在先前研究中鲜少被明确讨论。不同初始产物决定了MLAgentBench中可达的解决方案空间,截断轨迹仍能提升Atari智能体性能,而增大最小批尺寸在BBEH任务上并不能单调提升泛化能力。我们得出结论:缺乏跨领域的简单通用学习循环搭建方法,是实现产业化应用的主要障碍。本文针对这些选择提供了实践指导。
三维高斯泼溅(3DGS)能够实现实时的照片级真实感新视角合成,使其成为基于模型的视频追踪中极具吸引力的表征方法。然而,在实际场景中利用3DGS渲染器的可微性仍存在众所周知的脆弱性问题。其根本瓶颈在于高斯图元的紧凑局部支撑特性:标准光度目标函数隐式依赖于空间重叠度,若严重的相机错位导致渲染对象超出目标局部覆盖范围,梯度将完全消失,使优化器陷入停滞。我们提出SpectralSplats这一鲁棒追踪框架,通过将优化目标从空间域转换到频域,成功解决了“梯度消失”问题。通过一组全局复正弦特征(频谱矩)对渲染图像进行监督,我们构建了全局吸引域,确保即使像素重叠完全不存在时,整个图像域内仍存在指向目标的有效方向梯度。为在利用该全局吸引域的同时避免高频带来的周期性局部极小值,我们从第一性原理出发推导出理论完备的频率退火策略,使优化器能够从全局凸性平滑过渡到精确空间对齐。实验表明,SpectralSplats可作为空间损失函数的无缝替代方案,适配多种形变参数化方法(从MLP到稀疏控制点),即使在严重错位的初始化情况下——传统基于表观的追踪方法会彻底失败——也能成功恢复复杂形变。
尽管近期生成式视频模型已实现惊人的视觉真实度,并被探索作为世界模拟器,但真正的物理模拟需同时掌握空间与时间维度。现有模型能生成视觉流畅的运动学效果,却缺乏可靠的内在运动节拍来将这些动作锚定于统一且符合现实世界时间尺度的框架中。这种时间模糊性源于现行普遍做法:对真实世界速度差异巨大的视频进行无差别训练,并将其强制统一至标准化帧率。这导致我们称之为"计时幻觉"的现象:生成序列展现出模糊、不稳定且不可控的物理运动速度。 为解决此问题,我们提出视觉计时器(Visual Chronometer),该预测器可直接从输入视频的视觉动态中还原物理帧率(PhyFPS)。通过受控时间重采样训练,我们的方法能基于运动本身推断真实时间尺度,绕开不可靠的元数据。为系统量化该问题,我们建立了PhyFPS-Bench-Real和PhyFPS-Bench-Gen两个基准测试。评估结果揭示了一个严峻现实:顶尖视频生成器存在严重的物理帧率错位与时间不稳定性。最后我们证明,应用物理帧率校正能显著提升AI生成视频的人类感知自然度。项目页面详见https://xiangbogaobarry.github.io/Visual_Chronometer/。
我们提出4DGS360,一种无需扩散的框架,用于从单目手持视频实现360°动态物体重建。现有方法因过度依赖二维先验,导致初始点过度拟合每个训练视角中的可见表面,难以重建一致的360°几何结构。4DGS360通过先进的3D原生初始化策略应对这一挑战,有效缓解被遮挡区域的几何模糊性问题。我们提出的3D跟踪器AnchorTAP3D利用高置信度的2D跟踪点作为锚点,生成强化的3D点轨迹,抑制漂移现象并提供能保持被遮挡区域几何特征的可靠初始化。这种初始化与优化过程相结合,最终产生连贯的360°四维重建结果。我们还推出了iPhone360基准数据集,其测试相机与训练视角最大间隔达135°,能够实现现有数据集无法支持的360°全方位评估。实验表明,4DGS360在iPhone360、iPhone和DAVIS数据集上均取得定性与定量层面的最优性能。
多模态智能流程正通过高效、可及的复杂现实任务自动化变革人机交互。然而,当前研究主要聚焦于短周期或通用应用(如移动端或桌面端界面),针对特定领域系统(尤其是医疗领域)的长周期自动化研究仍属空白。为此,我们推出CareFlow——一个高质量人工标注的基准数据集,涵盖医学标注工具、DICOM阅片系统、电子健康记录系统和实验室信息系统中复杂的多步骤软件工作流。在该基准测试中,现有视觉语言模型表现欠佳,难以应对医疗场景下的长周期推理与多步交互挑战。为突破此局限,我们提出基于演员-评论家范式的多智能体框架CarePilot。演员组件通过工具定位与双记忆机制(长期/短期经验)整合,根据可视化界面和系统状态预测下一语义动作;评论家组件评估每个动作,基于观测结果更新记忆,并执行动作或提供修正反馈以优化工作流。通过迭代式智能模拟,演员组件在推理过程中可进行更稳健且具推理意识的预测。实验表明,CarePilot在我们的基准测试及分布外数据集上分别以约15.26%和3.38%的优势超越强闭源与开源多模态基线模型,达到最先进性能水平。
评估大型语言模型在开放性问题上的表现具有挑战性,因为回答质量高度依赖问题语境。传统的二元评分和静态评估标准难以捕捉这种语境依赖性。现有方法通常在数据集层面定义标准,或一次性生成评估维度,这限制了其对每个问题所隐含评估空间的探索能力。我们提出"一问一世界"方法,通过递归扩展树生成针对特定问题的评估标准。给定一个问题,该方法通过结构化层级扩展与横向扩展,将其分解为具体场景、观察视角和细粒度二元标准,从而明确高质量回答需满足的要求。在HealthBench测试集上,Qworld覆盖了专家制定标准的89%,并生成79%经专家验证的新标准。专家评定Qworld标准在洞察力与颗粒度方面均优于现有方法。当应用于HealthBench和"人类终极考试"的11个前沿LLM时,Qworld揭示了在长期影响、公平性、错误处理、跨学科推理等维度上的能力差异,这些差异是粗粒度标准无法区分的。通过将标准生成构建为对问题隐含评估轴的结构化覆盖,Qworld实现了适应每个具体问题的动态评估,而非依赖固定的任务级标准。
近期研究表明,神经网络无需显式三维重建即可完成新视角合成等三维任务。尽管如此,我们仍认为强三维归纳偏置对此类网络设计具有重要价值。为此我们提出LagerNVS——一种基于"三维感知"潜在特征的编解码器神经网络。该编码器由经过显式三维监督预训练的三维重建网络初始化,配合轻量级解码器,通过光度损失进行端到端训练。LagerNVS在确定性前馈新视角合成任务中(包含Re10k数据集上31.4 PSNR的表现)达到业界最优水平,无论相机参数是否已知均可实现实时渲染,对自然场景数据具有泛化能力,并能与扩散解码器结合实现生成式外推。
大型语言模型(LLM)催生了能够跨复杂任务进行推理、规划和执行的智能体系统,但它们在不确定条件下能否有效配置资源仍存疑问。与短周期的应激决策不同,资源配置需要在时间维度上持续投入稀缺资源,同时平衡多重竞争目标,并为未来需求保留灵活性。我们推出EnterpriseArena——首个针对长周期企业资源配置的智能体评估基准。该基准通过结合企业级财务数据、匿名商业文件、宏观经济与行业信号,以及经专家验证的运营规则,在132个月的企业模拟器中实现了类首席财务官的决策场景。该环境具有部分可观测性,仅通过预算化组织工具披露状态,迫使智能体在信息获取与资源节约之间进行权衡。对11种先进LLM的实验表明,该设定仍具高度挑战性:仅16%的运行能完整度过整个周期,且大模型并未稳定优于小模型。这些结果揭示了不确定条件下的长周期资源配置是当前LLM智能体存在的显著能力短板。
尽管Seedance-2.0等专有系统已在全能视频生成领域取得显著成功,但开源替代方案仍存在明显差距。当前多数学术模型仍处于高度碎片化状态,少数现有的一体化视频生成尝试也难以为多样化任务提供无缝衔接的统一框架。为弥补这一空白,我们提出OmniWeaving——一种具备强大多模态组合与推理感知能力的全层级视频生成模型。通过利用涵盖多样化组合与推理增强场景的大规模预训练数据集,该模型不仅能时序绑定交错输入的文本、多图像及视频数据,更能作为智能体推断复杂用户意图以实现精细化视频创作。此外,我们推出首个全面评估下一代智能统一视频生成能力的基准测试IntelligentVBench。大量实验表明,OmniWeaving在开源统一模型中实现了最先进的性能表现。代码与模型即将公开,项目页面详见:https://omniweaving.github.io。
扩散变换器在视频生成领域展现出卓越能力,但其实际部署受限于高内存占用与计算成本。训练后量化技术为降低内存消耗、提升计算速度提供了实用路径。现有量化方法通常采用静态位宽分配策略,忽略了扩散过程中不同时间步激活值的量化难度,导致效率与质量之间的权衡未能达到最优。本文提出一种推理时NVFP4/INT8混合精度量化框架:通过发现模块输入输出差异与其内部线性层量化敏感度存在强线性关联,我们设计轻量级预测器动态分配NVFP4至时序稳定层以最大化内存压缩,同时选择性保留INT8给波动层确保鲁棒性。这种自适应精度策略可在保持生成质量的前提下实现激进量化。此外,我们观察到变换器模块输入输出残差在时间步间具有高度时序一致性,基于此时序冗余特性引入时序差分缓存机制,通过跳过不变模块的计算进一步降低运算成本。大量实验表明,本方法可实现1.92倍端到端加速与3.32倍内存压缩,为视频扩散变换器的高效推理建立了新基准。
视频生成模型作为自动驾驶仿真的世界模型已展现出巨大潜力。然而,现有方法主要基于真实驾驶数据集进行训练,这些数据大多包含自然安全的驾驶场景。这导致当前模型在处理具有挑战性或反事实轨迹时(如模拟器或规划系统生成的不完美轨迹)往往失效,产生存在严重物理不一致性和伪影的视频。为解决这一局限,我们提出PhyGenesis世界模型,旨在生成兼具高视觉保真度和强物理一致性的驾驶视频。该框架包含两个核心组件:(1)物理条件生成器,将可能无效的轨迹输入转化为物理合理的条件;(2)物理增强视频生成器,基于这些条件生成高保真多视角驾驶视频。为有效训练这些组件,我们构建了大规模、富含物理特性的异构数据集。具体而言,除真实驾驶视频外,我们利用CARLA模拟器生成多样化的挑战性驾驶场景,从中提取监督信号以指导模型学习极端条件下的物理动力学。这种挑战性轨迹学习策略实现了轨迹校正,并促进了物理一致的视频生成。大量实验表明,PhyGenesis在各类挑战性轨迹上持续优于现有最先进方法。项目页面详见:https://wm-research.github.io/PhyGenesis/。
诸如具身智能等应用依赖实时感知-决策-动作的闭环系统,对流式视频理解提出了严苛要求。然而现有智能体存在能力碎片化问题:或仅支持离线视频理解,或缺乏多模态长时记忆机制,或难以在流式输入下实现实时推理与主动交互。这些缺陷已成为阻碍其在真实环境中持续感知、实时决策并执行动作的关键瓶颈。为缓解这些问题,我们提出StreamingClaw——面向流式视频理解与具身智能的统一智能体框架。该框架同时兼容OpenClaw标准,支持实时多模态流式交互。StreamingClaw集成五大核心能力:(1)支持实时流式推理;(2)支持在线演化交互目标下的未来事件推理与主动交互;(3)支持多模态长时存储、分层演化及多智能体间共享记忆的高效检索;(4)实现感知-决策-动作闭环,除常规工具与技能外,还提供专为真实物理环境设计的流式工具及以动作为核心的技能;(5)兼容OpenClaw框架,可充分借助开源社区资源与支持。通过上述设计,StreamingClaw将在线实时推理、多模态长时记忆与主动交互整合于统一框架,并通过将决策转化为可执行动作实现对物理世界的直接控制,支撑具身交互的实际部署。
现有多模态大语言模型(MLLMs)在三维空间推理方面存在明显局限,难以从视频输入中构建结构化三维环境抽象。为弥补这一缺陷,我们借鉴以自我为中心的空间认知理论,探索如何使MLLMs能够对基于文本的视频空间表征进行建模与推理。具体而言,我们提出了自中心视频的异中心语境文本表征方法(TRACE),该提示策略能引导MLLMs生成三维环境的文本化表征作为中间推理轨迹,从而提升空间问答准确性。TRACE通过编码元语境、相机运动轨迹和细粒度物体实体,为自中心视频提供结构化空间推理支持。在VSI-Bench和OST-Bench上的大量实验表明,相较于现有提示策略,TRACE在不同参数规模与训练范式的多种MLLM骨干网络上均实现了显著且一致的性能提升。我们进一步通过消融实验验证了方案设计的合理性,并深入剖析了当前MLLMs三维空间推理的瓶颈所在。
我们研究发现,在自组织临界状态下预训练的PLDR-LLMs在推理时展现出推理能力。处于临界状态时,PLDR-LLM演绎输出的特征类似于二阶相变:关联长度发散,演绎输出达到亚稳态平衡。这种稳态行为表明,演绎输出从训练数据中学习了等同于标度函数、普适性类和重正化群的表示,在此过程中形成泛化与推理能力。据此我们可以根据模型演绎输出参数的全局统计量定义序参量。当PLDR-LLM的序参量在临界点趋近于零时,其推理能力更优。这一发现得到了近临界和亚临界训练模型基准得分的支持。我们的研究结果完整阐释了推理能力如何在大语言模型中显现,且该能力可直接通过稳态演绎输出的全局模型参数值进行量化,无需借助归纳输出在精选基准数据集上的推理与理解能力评估。
三维场景中的功能分割要求智能体将隐式自然语言指令精准关联到细粒度交互元素的掩码上。现有方法依赖碎片化流程,在初始任务解析阶段存在视觉盲区。我们发现这些方法受限于单尺度、被动式和启发式的帧选取策略。本文提出UniFunc3D——一个以多模态大语言模型为主动观察者的统一免训练框架。通过将语义、时序和空间推理整合至单次前向传播,UniFunc3D执行联合推理,将任务分解过程锚定于直接视觉证据。我们的方法引入了从粗到精的主动时空定位机制,使模型能自适应选择正确视频帧,聚焦高细节的交互区域,同时保留消歧所需的全局上下文。在SceneFun3D基准测试中,UniFunc3D以59.9%的相对mIoU提升显著超越所有免训练与需训练方法,刷新最优性能记录,且无需任何任务特定训练。代码已发布在项目页面:https://jiaying.link/unifunc3d。