每日精选AI研究论文及翻译
世界模型根据当前观测和动作预测环境动态,是智能体进行推理与规划的核心认知机制。本研究探讨了基于语言模型的世界建模如何进一步拓展通用智能体的边界。(i) 我们首先聚焦于构建面向智能体环境模拟的基础模型。推出了Qwen-AgentWorld-35B-A3B和Qwen-AgentWorld-397B-A17B——这是首批能够通过长链条思维推理模拟覆盖7个领域的智能体环境的语言世界模型。利用真实环境中7个领域的超过1000万条交互轨迹,我们通过三阶段训练流程开发了Qwen-AgentWorld:连续预训练阶段从状态转移动态和扩充的专业语料库中注入通用世界建模能力;监督微调阶段激活下一状态预测推理;强化学习阶段通过专为混合评价标准与规则奖励设计的框架提升模拟保真度。为评估语言世界模型,我们提出了AgentWorldBench——一个基于5个前沿模型在9个成熟基准上的真实交互构建的综合基准。实验结果表明,Qwen-AgentWorld显著优于现有前沿模型。(ii) 除基础模型外,我们进一步探索了世界模型赋能通用智能体的两种互补范式。首先,作为解耦的环境模拟器,Qwen-AgentWorld支持对数千个真实环境进行可扩展、可控的模拟,用于智能体强化学习,其收益超越了仅依赖真实环境训练的效果。其次,作为统一的智能体基础模型,世界模型训练作为一种高效的预热方法,能够提升7个智能体基准的下游性能。代码:https://github.com/QwenLM/Qwen-AgentWorld
我们提出NatureBench,这是一个跨学科基准测试,包含90个从经同行评审的Nature系列刊物中提取的任务,旨在评估AI编程智能体能否在真实科学问题上从复现迈向发现。NatureBench基于NatureGym构建,后者是一个自动化流水线,能够从源论文中构建标准化、每个任务独立的容器化环境,解决了此前研究型智能体基准测试中因环境碎片化而影响可信度的问题。在严格禁用网络搜索的协议下评估了前沿智能体配置后,我们发现最强模型在g>0.1准则下仅超越17.8%任务的最优表现。方法路径分析显示,智能体主要依赖方法论转化——将科学任务转换为熟悉的监督预测问题——而非真正的科学发明。失败原因主要在于方法选择错误和计算资源不足,而非任务理解偏差。我们公开了该基准测试、NatureGym流水线以及一个支持维护方复现的公开排行榜。代码:https://github.com/FrontisAI/NatureBench
基于多模态大语言模型(MLLM)的移动GUI代理在UI理解和动作执行方面取得了显著进展,但将其适配到实际目标应用仍成本高昂,因为移动应用数量庞大、更新频繁,且难以用人工编写的任务、示范或奖励标签全面覆盖。现有的免标注GUI学习虽减少了人工监督,但缺乏将目标应用探索、课程挖掘、轨迹展开执行与反馈统一整合的基础平台,而策略优化往往依赖孤立的轨迹展开和粗粒度奖励,难以转化为可靠的改进信号。为此,我们提出MobileForge——一种面向移动GUI代理的免标注适配系统。MobileForge包含两大组件:MobileGym将任务生成和轨迹评估锚定在真实移动应用交互中;层次化反馈引导策略优化(HiFPO)则将轨迹结果、步骤级过程反馈和修正提示转化为基于提示上下文的步骤级GRPO更新。仅使用自动生成的免标注适配数据,MobileForge即可将Qwen3-VL-8B在AndroidWorld上的Pass@3提升至67.2%,接近使用闭源数据训练的专有GUI模型GUI-Owl-1.5-8B的69.0%基线。经MobileForge适配后的ForgeOwl-8B模型进一步在AndroidWorld上达到77.6%的Pass@3,在域外移动世界(MobileWorld)GUI-only任务中取得41.0%的成功率,成为我们评测中性能最强的开源数据移动GUI代理。代码、数据和训练模型将在https://mobile-forge.github.io/ 开源。
基于MLLM的移动GUI智能体在短期任务上取得了显著进展,但在需要跨多个步骤和应用程序转换保留中间事实的长期任务上仍不可靠。我们将此限制归因于ReAct风格的提示方法,该方法被动累积每步记录,导致提示膨胀以及关键跨应用事实被稀释。为解决这一问题,我们提出MemGUI-Agent,一种具备主动上下文管理能力的端到端长期移动GUI智能体。MemGUI-Agent基于“上下文即动作”(Context-as-Action,ConAct)构建,该方法将上下文管理视为与选择UI动作相同策略所发出的首要动作。与被动追加历史记录不同,ConAct维护三个结构化上下文字段:折叠后的动作历史、折叠后的UI状态以及最近步骤记录,在保持上下文紧凑的同时保留关键UI事实。为使主动上下文管理可跨模型规模学习,我们构建了MemGUI-3K数据集,包含2956条轨迹及完整ConAct标注,用于监督训练和离线分析。在MemGUI-3K上训练8B模型得到MemGUI-8B-SFT,该8B规模MemGUI-Agent在MemGUI-Bench上实现了最佳开放数据8B性能,并泛化至分布外的MobileWorld基准测试。代码、数据及训练模型将发布于https://memgui-agent.github.io/。
智能体语言模型极大地拓展了人工智能的应用场景,但关于如何为通用型智能体筛选训练数据,目前可公开获取的知识仍然十分有限。现有开源项目如SWE-Smith、SERA和Nemotron-Terminal通常仅针对单一基准测试,未能解决如何训练模型以泛化到多种智能体任务的问题。OpenThoughts-Agent(OT-Agent)项目通过构建完全开源的数据整理流程填补了这一空白。我们开展了超过100项受控消融实验,系统探究流程的每个阶段,揭示了任务来源与多样性的重要性。随后,我们利用该流程整理了包含10万个示例的训练集,对Qwen3-32B模型进行微调,在七个智能体基准测试中实现了平均44.8%的准确率,相比现有最强的开源数据智能体模型(Nemotron-Terminal-32B,40.9%)提升了3.9个百分点。此外,我们的训练数据展现出强大的扩展特性,在计算资源受控的对比实验中,每种训练数据规模下的表现均优于其他开源数据集。我们已在openthoughts.ai平台公开了训练集、数据流程、实验数据及模型,以支持未来关于智能体模型训练的开源研究。
AI代理正在推动一种新的软件范式,它们能够自主调用工具、提取信息、管理记忆,并完成跨越应用程序和数据源的任务。然而,大多数现有的终端用户操作系统是为以应用为中心的工作流设计的,对AI代理的原生支持极少。这种不匹配限制了代理的广泛采用,并在传统系统上运行代理时导致执行开销和安全风险。尽管代理原生操作系统的概念正在涌现,但研究界仍缺乏一个开放测试平台来探索代理中介交互所需的架构原语。我们提出AOHP(Android开放集成框架项目)——一个基于安卓开源项目(AOSP)构建的操作系统级代理框架。AOHP的核心设计原则是将代理视为操作系统的一等参与者,实现自适应用户界面和代理友好的运行时环境。AOHP在保留成熟的安卓软件和硬件生态系统的同时,引入了三种面向代理的系统机制:个性化服务组合、高效代理接口和安全的用户信息流。基于覆盖操作系统代理关键能力的挑战性任务的初步实验,AOHP在任务完成率(+21.12%)、执行成本(-51.55%的令牌成本)和安全性策略合规性方面表现出明显优势。
精神障碍在全球范围内高度流行,但精神科医生的短缺以及基于面谈诊断固有的主观性,严重阻碍了及时且一致的心理健康评估。人工智能辅助精神疾病诊断的进展受到缺乏基准的制约——这些基准需同时提供逼真的患者模拟、临床医生验证的诊断标签,并支持动态多轮问诊。我们提出LingxiDiagBench,这是一个大规模多智能体基准,用于评估大语言模型在中文环境下静态诊断推理与动态多轮精神科问诊两方面的能力。其核心是LingxiDiag-16K数据集,包含16,000段与电子病历对齐的合成问诊对话,旨在复现12个ICD-10精神疾病类别下的真实临床人口学与诊断分布。通过在先进的大语言模型上开展大量实验,我们得出关键发现:(1) 尽管大语言模型在二元抑郁-焦虑分类上准确率较高(最高达92.3%),但在抑郁-焦虑共病识别(43.0%)和12类鉴别诊断(28.5%)上性能显著下降;(2) 动态问诊的表现通常低于静态评估,表明无效的信息收集策略严重损害下游诊断推理;(3) 由大语言模型作为评判者评估的问诊质量与诊断准确性仅呈中等程度相关,这提示结构良好的提问本身并不能确保正确的诊断决策。我们公开发布LingxiDiag-16K及完整评估框架,以支持可复现的研究,访问地址:https://github.com/Lingxi-mental-health/LingxiDiagBench。
从单张图像生成可探索的3D场景需要强大的生成先验和适合下游应用的精确几何表示。当前的视频扩散模型能够生成高质量内容,并在潜在空间中隐式编码多视角几何结构。然而,现有前馈潜在场景解码器通常输出缺乏明确表面的体积3D高斯,限制了其在仿真或标准图形管线中的使用。这促使我们解码不仅可渲染而且更接近显式几何资产的表面对齐图元。我们提出一个问题:压缩后的视频扩散潜在变量是否可以直接通过单次前向传递映射到显式表面图元?为此,我们引入了FLAT,并首次展示了可以从视频扩散潜在变量直接解码三角形薄片(triangle splats)。与解码3D高斯相比,由于对图元方向高度敏感,常常导致梯度流动不佳,预测扁平图元通常更具挑战性。FLAT通过两个关键成分解决了这一问题:一个用于三角形回归的以射线为中心的旋转参数化,以及一个新颖的乘积窗口函数,该函数改进了可微三角形渲染过程中的梯度流动。在标准基准测试上,FLAT在保持与最先进前馈基线相当的视觉质量的同时,实现了显著更好的几何精度。我们进一步证明,一个轻量级的测试时优化步骤可以将预测的三角形片集合(triangle soup)转换为完全不透明、适用于游戏引擎的表示,支持实时渲染。通过在相同的训练设置下评估3DGS、2DGS和三角形薄片变体,我们首次对前馈场景生成中的表示权衡进行了系统分析。项目页面位于 https://flat-splat.github.io
现代文本到图像模型在视觉保真度和提示遵循方面表现出色。然而,这种严格的遵循是以牺牲多样性为代价的:生成的样本往往坍缩为单一的视觉解释。现有的提高多样性的方法产生的输出由偶然变化驱动,而非有意义的设计选择。这催生了一个新的多样性任务变体,即对生成样本施加结构约束。我们提出了一种用于受控多样性的方法,实现了语义浏览——用户可以通过系统遍历有意义、可解释的变化轴,在结构化图像画廊中导航,体验创造性探索。实现这种语义控制水平需要对场景有深刻理解。我们利用了近期文本到图像模型在详细描述上训练的事实,有效将语义决策与像素生成解耦。这带来了范式转变:不再依赖文本到图像模型内部的随机变化,而是直接在文本层面诱导多样性。通过利用丰富的文本表示,我们允许视觉语言模型(VLM)在完整的场景上下文中运行。为克服标准VLM典型的通用输出,我们采用代理工作流,明确强制实施与原始提示相契合的结构化变化。我们证明了该方法能生成多样且可导航的设计空间,其中每个变化都对应一个特定的、用户可理解的语义决策。
什么是智能体?什么构成了自主性?随着被标榜为“编程智能体”“AI 科研助手”及其他“自主式”工具的大语言模型系统兴起,这些系统承诺提升生产力,同时,诸如“机器自主性”对抗人类、AI 以破坏性力量脱离人类控制等“存在性”担忧也浮出水面。因此,厘清自动化在何处终结、自主性从何处开始,对于构建能力强大的系统以及理解我们是否应当恐惧、恐惧什么,都变得至关重要。本文借鉴笛卡尔将自主性奠基于独立思考的哲学基础,以及科幻作品中对自主存在的描绘,梳理了当前 AI 智能体的发展现状,并从目标、身份、决策、自我调节和学习五个维度分析智能体架构。具体而言,我们认为真正的自主性要求这些结构内化于系统自身,而非通过外部脚手架拼接而成。这一区分——能力源于工程化工作流的“代理系统”,与能力(包括社会互动)内生涌现的“自主系统”——定义了为预定任务设计的系统与能够在开放世界中真正自主运行的系统之间的边界。基于此分析,我们提出了面向通用智能体模型的“目标-身份-配置器”架构,结合分层目标分解、身份演化、基于独立训练的世界模型的模拟推理、习得的自我调节,以及从真实与模拟经验中进行自我导向的学习。此外,我们针对拥有更高自主性与“主体性”、但仍处于人类监督之下的自主系统的可审计性、可控性和安全性,分享了相关见解。
在联邦学习(FL)框架下训练潜在扩散模型(LDM)因兼具LDM的强大生成能力和FL的隐私保护特性而日益受到关注。然而,FL要求将全局模型与多个参与者共享,这可能导致恶意客户端未经授权分发或转售模型。尽管一个直观的解决方案是在FL中采用现有基于VAE的水印技术来保护LDM,但该方法因两个根本挑战而无法有效应对此类威胁:(1)现有方法支持所有权验证,但缺乏将模型泄露追溯至特定恶意客户端的能力;(2)基于VAE的水印较为脆弱,仅需替换解码器即可轻易移除。本文提出FedOT——首个面向联邦LDM的所有权验证与泄漏追溯框架。具体而言,针对第一个挑战,我们设计了一种分块水印:第一部分用于所有权验证,第二部分用于客户端身份识别。此外,为克服第二个挑战并抵御VAE替换攻击,我们引入潜在向量变换(LVT)技术,通过修改VAE的原始潜在分布来强化VAE与U-Net潜在空间之间的关联。这样一来,任何为移除水印而替换VAE的尝试都将导致图像质量显著下降,致使LDM模型无法使用。大量实验表明,FedOT在所有权限验证与可追溯性方面均实现了优越性能。项目主页:https://spyzixuan.github.io/FedOT/。
基于经验驱动的自我进化对于大语言模型(LLM)智能体在开放世界交互中提升能力至关重要。然而,现有的经验学习方法大多依赖单智能体循环,即同一智能体同时负责执行任务、总结结果和决定记忆内容。这种设定使智能体容易陷入“自我确认陷阱”:错误但自洽的轨迹被误判为成功经验,导致在检索和复用过程中累积错误。为了解决这一问题,我们提出EDV(执行-蒸馏-验证)框架,用于实现可靠的经验学习。在执行阶段,多个异构智能体并行探索同一任务空间,生成多样化的候选轨迹。在蒸馏阶段,一个专门的第三方智能体对这些轨迹进行对比分析,生成候选经验,从而减少以执行者为中心的总结偏差。在验证阶段,执行组通过共识机制验证候选经验,只有通过验证的经验才会被写入共享或私有记忆。通过解耦这三个阶段,EDV将经验学习从孤立的自我反思转变为协作构建,在记忆插入前过滤错误和噪声内容。我们在三个具有挑战性的长周期基准任务上评估了EDV:tau2-bench、Mind2Web和MMTB。结果表明,EDV持续优于强基线方法,验证了可靠的经验构建对于鲁棒的智能体自我进化至关重要。我们的代码开源在 https://github.com/shidingz/EDV。
文本到图像(T2I)生成模型在根据自然语言提示生成视觉逼真图像方面取得了显著进展。然而,尚不清楚其成功是源于真正的因果理解,还是依赖于视觉-文本关联的复杂模式匹配。受罗素归纳火鸡的启发,我们提出了反事实世界(CF-World),这是一个反事实基准,旨在探究文本到图像模型是否能在系统性地违背现实世界先验知识的规则下生成图像。CF-World将每个场景组织为三个递进层次:基于普通世界知识的事实生成、包含直接视觉指令的显式反事实生成,以及需要从规则变更中推理因果的隐式反事实生成。我们使用基于视觉语言模型(VLM)的评估器(CF-Eval)来评估开源和闭源T2I模型。此外,我们引入了两个指标:先验抵抗率(PRR),用于衡量模型克服根深蒂固现实先验的能力;以及推理保持率(RRR),用于评估模型是否能在无显式视觉线索的情况下维持依赖推理的反事实生成。实验表明,所有模型从事实设定过渡到反事实设定时均出现显著性能下降。进一步分析表明,这些失败源于当前T2I模型将世界知识与视觉外观编码为紧密耦合的模式。因此,其过度依赖训练数据中频繁出现的视觉共现模式,导致在需要生成反事实世界任务时,模型默认退回到熟悉的常识先验。
扩散变换器(DiT)在图像生成领域的研究已收敛到单一的评估设置:ImageNet上的类条件生成。尽管方法改进了FID及相关指标,但越来越不清楚它们是否反映了生成建模的真正进展。自然的替代方案,即文本到图像(T2I)生成,被认为训练和评估成本过高或不便,常被跳过。我们认为这一看法已不再成立。我们提出NanoGen,一个统一的DiT训练与评估框架。NanoGen在ImageNet上匹配了最先进的DiT基线,且仅需更改12行配置即可训练出具有竞争力的文本到图像模型。它目前支持RAE、VAE、像素空间和MeanFlow扩散方法,同时适用于ImageNet与T2I设置。在NanoGen下,训练T2I所需的计算量与ImageNet相当。通过NanoGen训练21个潜在扩散模型后,我们发现方法排名在ImageNet与T2I生成之间没有强相关性:三个指标上的皮尔逊相关系数在-0.377至-0.580之间。这表明,一种在类条件ImageNet FID上有所改进的方法,可能在T2I上并无相应提升,清晰表明有必要在两个任务上评估DiT。为此,我们总结了ImageNet与文本到图像的结果,形成了DiffusionBench,一个用于DiT研究的整体基准。我们建议报告DiffusionBench而非仅报告ImageNet:在DiffusionBench上取得改进的方法更有可能反映更广泛的进展。
将强化学习扩展至视觉数学推理,需要的不仅是生成更难的问题:随着数据规模增长,奖励标签本身必须保持可靠。然而,现有数据管线在扩展监督时完全信任标注者,而策略侧方法则假设基础答案已正确。我们转而将扩展视为一个可验证的数据构造问题,并在任何策略更新之前解耦两个维度:提示难度(通过路径特定的演化算子进行扩展)和答案可靠性(通过离线假设检验证伪来强制执行)。我们将其具体化为VeriEvol——一个包含两个可扩展组件的迭代框架:一个类型感知的演化模块,将低难度的图像-问题种子重写为更难的、基于图像的提示;以及HTV-Agent,一个验证器,仅在多源反证无法反驳答案后才接受该答案。由此产生的已验证数据在规模上可扩展,通过添加演化路径或验证器通道来拓展,并且可直接接入现有的GRPO风格的强化学习方案。在一个包含五个基准的视觉数学套件上,将经过演化的SFT数据从10K扩展至250K样本,平均准确率从35.42提升至54.73;随后,在保持骨干网络、SFT初始化和GRPO方案不变的情况下,VeriEvol在未经演化的强化学习基线上累计提升了+3.88,其中+1.82来自演化后的提示,+2.06来自HTV-Agent验证器。我们开源了提示、数据、模型、代码以及每个样本的完整验证器跟踪记录,以便后续工作能够扩展和审计整个管线,而不仅仅检查其输出。
训练数据的组成,受数据来源多样性及其混合策略的支配,是大语言模型(LLM)预训练的基石。在线数据混合(ODM)技术,即在训练过程中自适应调整数据混合比例,已成为提升效率的前沿方向。然而,现有方法受限于其依赖单一优化视角,这从根本上忽视了复杂的LLM预训练需要从多个维度考虑动态数据组合的需求。为克服这一局限,我们引入了全面数据调度器(HDS),一种新颖的在线数据混合框架。HDS将数据调度挑战建模为连续控制空间中的强化学习问题,并利用软演员-评论家(SAC)算法在探索高维策略空间中的稳定性和样本效率。HDS的核心是一种新颖的多目标、全面奖励函数,该函数整合了三个关键视角:基于数据质量的数据驱动奖励、捕获跨领域影响的损失驱动奖励,以及基于权重范数的模型驱动奖励。为验证我们的设计并确定其最优配置,我们在不同规模的LLM上进行了系统性实验。在The Pile基准测试中,HDS以比次优方法少44%的训练迭代次数达到了最终验证困惑度。此外,在MMLU 0-shot任务上实现了7.2%的提升,并在其他基准测试中持续获得收益,展示了其在提升训练效率和最终模型能力方面的能力。
稠密检索嵌入模型是现代基于检索的AI系统的基本组件。大多数稠密检索器通过对比学习目标进行训练,这需要标注好的正负文档对,而这些数据往往成本高昂且难以获取。在这项工作中,我们探究了大语言模型(LLM)的自回归下一个词元预测目标能否为稠密检索提供监督信号。其直觉很简单:如果一个文档包含与查询相关的信息,那么以该文档为条件应能使LLM更轻松地预测目标输出。一个关键挑战在于:下一个词元预测的损失是在LLM内部计算的,而检索器则是一个独立的嵌入模型。为应对这一挑战,我们提出了DREAM(通过自回归建模实现稠密检索嵌入),该方法将检索器生成的查询-文档相似度分数注入冻结LLM的选定注意力头中。在训练过程中,这些分数决定了LLM在预测目标输出时每个候选文档获得多少关注。由此产生的预测损失通过注意力机制为检索器的训练提供梯度。我们使用参数规模从0.5B到3B的嵌入骨干网络,在检索基准BEIR和RTEB上评估了DREAM。在不同模型规模下,DREAM始终优于现有基线。这些结果表明,DREAM为通过自回归建模训练稠密检索器提供了一种有前景的方法。
跨图表检索增强生成(RAG)在科学、商业和政治领域的复杂多模态分析任务中至关重要。然而,现有基准测试要么专注于结构清晰、文本化的表格,要么通过简单地提取关键点来生成跨图表问题,这往往会导致查询与证据之间存在词汇重叠,并产生逻辑不一致的推理链。为解决这一问题,我们提出了ChartWalker,一个用于构建具有挑战性的跨图表RAG任务的新型框架。ChartWalker采用了专为图表设计的层次化知识图谱构建方法,该方法按粒度组织实体和关系,以保留分析结构。随后,我们提出了一种结构感知的采样算法,该算法合成语义连贯的多跳推理路径,从而实现对问答生成中查询难度和粒度的显式控制。基于这一框架,我们发布了ChartWalker-Bench,这是一个涵盖多个领域和跨图表查询类型的综合性基准测试。在主要RAG范式上的广泛评估揭示了显著的性能差距,凸显了该基准测试的难度和实用性。此外,我们提供了ChartWalker-Agent,一个基于代理的基线方法,以促进分析并启发未来的系统设计。
基于注意力的多实例学习聚合器在医学影像中容易出现注意力集中现象,从而导致过于自信且不稳定的预测。我们提出QG-MIL,这是一种门控Transformer聚合器,通过四个协同架构组件解决了该问题:基于RMSNorm的预归一化、逐头QK归一化、细粒度注意力输出门控以及SwiGLU风格的前馈模块。这些设计选择共同稳定了训练过程,并使得注意力在实例间分布更加均匀,无需辅助损失、掩码或多阶段正则化。我们在涵盖全切片病理学和细胞级血液学的六个基准数据集上对QG-MIL进行了评估,涉及两种根本不同尺度的MIL任务。性能最佳的QG-MIL变体在所有六个基准测试中均优于领先基线方法,平均宏F1分数提升+6.1个点。注意力叠加图和注意力质量分析证实了实例权重分布更加均匀。消融研究表明,虽然在特定数据集上个别组件可与完整模型匹敌,但与所选基线方法相比,QG-MIL设计提供了最一致的跨域性能和最小的方差。我们发布了可配置的实现以支持可复现性,地址为:https://github.com/unica-visual-intelligence-lab/QG-MIL
多模态虚假信息检测日益重要,因为如今病毒式传播的帖子通常包含长篇多语言叙述、多张图片、混合来源以及微妙的图文框架错误。现有的基准和方法与这一场景仍不匹配:它们通常局限于短文本、单张图片、二元标签或单一操控来源,而基于智能体的验证在现实证据搜索中成本高昂。为此,我们提出 ReMMD——一个面向多模态虚假信息检测的现实多语言多图片智能体验证框架。ReMMD 包含 ReMMDBench,一个包含 500 个样本、2,756 张图片、五种单语言设置、两种跨语言设置、三种文本长度层级、多图片帖子、五类真实性标签、八类失真标签、证据来源及推理依据的现实世界多模态虚假信息检测基准。此外,它还包含 ReMMD-Agent,一个具有持久记忆的验证器,能够将帖子分解为原子化观点、构建可复用证据集,并预测结构化的 L1/L2/L3 输出。在闭源系统、开源 LVLM、MMD-Agent 和 T2-Agent 的对比中,ReMMD-Agent 在五类真实性分类上取得了最佳性能,使用 GPT-5.2 时准确率达 41.80%,宏 F1 达 39.12%,同时相比 MMD-Agent 成本降低 17.5%,相比 T2-Agent 成本降低 79.9%。项目地址为 https://dang-ai.github.io/ReMMD。
记忆仍然是长时域机器人操作中的关键瓶颈,因为标准的视觉-语言-动作(VLA)策略在任务相关线索随时间变得遮挡或不可观测时往往失败。现有的记忆增强方法虽利用了历史上下文,但要么遭受严重的信息瓶颈,要么通过解耦的双系统引入高延迟,要么依赖不加选择的缓冲区积累大量视觉冗余。为解决这些局限,我们提出EventVLA,一种基于稀疏视觉证据记忆概念的端到端框架,包含两个核心组件:用于保留初始和短期上下文的基础视觉锚点,以及动态关键帧证据记忆(KEM)模块。具体而言,KEM直接从VLA的潜在嵌入中预测未来关键帧概率,从而自主捕获并存储稀疏的、任务关键的视觉事件。这种前瞻驱动机制使策略能够动态评估当前观测的未来因果效用,在瞬态视觉证据变得不可观测之前将其保留。此外,我们提出RoboTwin-MeM,一个专门设计的诊断基准,用于评估具有交互式视觉证据的非马尔可夫操作任务。大量评估表明,在17个需要记忆的仿真任务和4个真实世界双臂任务中,EventVLA相较于最先进的记忆增强VLA实现了平均+40%的成功率提升。
通用价值模型在从大规模、混合质量数据中扩展机器人策略学习方面发挥着关键作用。从数学角度看,精确的价值估计需要深层的时间理解能力,要求模型既能利用历史上下文确立当前信念,又能对未来结果进行规划。然而,现有大多数机器人价值模型基于视觉语言模型(VLM)主干构建,而这些VLM主要在静态或时间稀疏的视觉观察上预训练,缺乏价值估计所需的时间建模能力。与VLM不同,世界模型天然擅长时间建模和未来规划,使其成为学习可泛化价值函数的理想基础。受此启发,我们将世界模型与价值估计相结合,构建了一种新的通用机器人价值模型——世界价值模型(WVM),该模型能够提供精确的任务进展评估以衡量数据质量。在标准基准测试上,WVM在价值序相关性(VOC)指标上取得了最优结果。为补充仅包含专家数据的标准评估套件,我们进一步引入了次优价值基准(Suboptimal-Value-Bench),这是一个包含800条次优轨迹的多实体基准数据集,配有高保真度的人工标注帧级标签。评估表明,WVM在次优价值基准上仍保持最优性能,证明了其在处理专家数据和次优数据时的鲁棒性。在策略学习部署中,WVM在模拟环境和真实场景下均能提升多种策略提取方法的操作性能,为从混合质量数据中学习提供了稳健的指导。
多模态驾驶规划长期以来面临两种范式之间的张力:基于评分的方法受益于密集的奖励监督,但受限于固定的动作词汇表;而基于锚点的方法能够动态生成提案,却因仅受单一真实轨迹约束而面临稀疏监督的困境。本文提出的FlowR2A方法通过将基于模拟的奖励从判别目标重构为生成条件,化解了这一矛盾。该方法利用流匹配解码器从密集轨迹-奖励对中学习奖励调节下的动作分布,从而在一个生成模型中统一了基于评分方法的密集监督与基于锚点方法的提案生成能力,迫使模型内化动作及其在安全性、进程、舒适性和规则合规性方面结果之间的关联。为平衡硬性安全约束与软性进程目标,我们引入了细粒度的每时间步奖励调节与奖励噪声增强。该生成式公式通过奖励引导和锚定采样自然地支持可控的测试时采样,从而生成高质量提案。FlowR2A在NAVSIM v1和v2基准测试中达到了最先进水平,其多模态提案质量显著优于此前方法。
针对微电网在不确定性条件下的最优容量配置与功率调度问题,控制领域已有广泛研究。通常,该最优控制问题被建模为混合整数规划,以描述储能系统中出现的逻辑约束,并采用场景法等数值方法进行近似求解。本文针对包含逻辑约束且存在用户用电需求、光伏发电出力、电网电价及电池效率不确定性的鲁棒微电网容量与功率调度最优控制问题,提出并比较了两种建模方案。第一种方案采用二进制变量与大M约束,构建混合整数线性规划模型;第二种方案通过引入附加建模变量与非凸约束,对逻辑约束进行精确光滑重构,将问题转化为连续非线性规划。在此基础上,我们提出一种改进的局部约简算法,用于求解上述两类问题。通过基于10万样本蒙特卡洛模拟的求解结果对比评估,两种方案均取得了理想效果,平均可行性验证率均超过90%。
视觉-语言-动作(VLA)模型能够从示范中学习操作技能,但其能力受限于训练数据中的技能范围。我们提出InSight框架,通过在基元动作层面(例如“将夹爪移至碗边”、“向上抬起”、“倾倒瓶子”)赋予VLA可操控性,实现自主技能获取。InSight包含两个主要阶段:(1)自动化分割流水线,通过VLM任务规划分解与末端执行器位姿,将示范数据划分为带标签的基元,从而支持VLA基元可操控性;(2)VLM引导的数据飞轮,识别完成新任务所需的缺失基元,自主尝试通过VLM提出的低级控制来执行缺失基元的示范,并自动标记、存储和整合成功示范到VLA训练集中。我们在仿真和真实机器人操作任务中评估了InSight,包括翻转方块、关闭抽屉、清扫、扭转和倾倒,且未使用任何目标技能的人类示范。一旦这些基元被习得,即可组合执行未见过的长时任务,无需额外人类示范。我们的结果表明,基元可操控性为VLA策略的持续技能获取提供了实用基础。项目网站:https://insight-vla.github.io。
稀疏体素表示已成为图像到3D高斯溅射(3DGS)生成的可扩展基础,然而当前方法因两个结构性瓶颈难以保留输入图像的高频视觉细节。首先,现有方法采用针对语义抽象优化的判别式2D特征来构建稀疏体素潜变量,这种方式压制了重建线索并导致表征瓶颈。其次,在生成阶段,标准扩散变换器缺乏有效机制来对齐密集2D图像标记与稀疏3D体素潜变量,引发跨模态对应瓶颈。为解决这些问题,我们提出FLUX3D——一种可扩展的图像到3DGS框架,在生成过程中同时增强表征学习与跨模态对齐。我们首先重新审视基于稀疏体素的3D表征学习中的2D特征选择,提出扩散对齐结构化潜变量(DA-SLAT)并将其与解码器专用架构结合,以提升3DGS重建保真度。此外,我们设计了稀疏结构感知扩散框架,该框架整合了稀疏结构多模态扩散变换器(SMDiT)与模态感知旋转位置嵌入(MARoPE),以实现几何无关的2D-3D对齐。大量基准实验表明,FLUX3D在外观保真度上取得显著提升,并在生成高质量3DGS资产方面全面超越所有现有最优(SOTA)方法。
大型语言模型越来越多地被部署为基于文档进行推理的代理,而非依赖参数化知识回答问题。我们研究基于档案的推理:在一堆庞大杂乱的职场文件中定位稀疏证据,协调不一致的术语、单位与时间惯例,并计算出答案。现有基准仅涵盖该场景的局部环节,且没有哪个基准能同时强调档案基础性、代理探索性与跨领域覆盖性。我们提出Agora基准,将362个问题与8个领域的9664份真实文档(共3.72亿词元)配对,这远超任何模型的上下文窗口,因此代理必须审慎探索而非全面扫描。Agora通过一个代理化流水线构建,该流水线结合了跨文档任务合成、防泄露混淆处理以及难度过滤。在对8个模型进行评估后,我们发现该任务远未解决:即使最强模型也仅达到59.4%的准确率,且不同领域间差异显著。
动态三维高斯溅射在运动一致性与视觉保真度之间面临根本性矛盾。基于形变的方法能够保持时序对应关系,但会因运动过度分解而平滑高频动态;而四维基元方法虽能捕捉精细视觉细节,却因时序过度参数化导致物体身份断裂,并带来严重存储开销。为解决这一问题,我们提出Multi4D——一种基于多层次竞争分配的高保真动态高斯溅射框架。不同于单一表示,我们将建模能力分布到三个结构化层次:静态结构、持久动态几何与瞬态外观基元。通过共享光栅化与残差驱动优化,这些层次动态竞争解释光度误差,无需预先分配即可实现自适应专业化。这种分配机制在保留长期运动一致性的同时捕捉精细动态细节,以显著更少的动态基元实现最先进的渲染质量与实时性能。此外,由于我们的表示显式追踪随时间变化的紧凑持久高斯体,语义特征可随后嵌入,使Multi4D以数量级加速实现最先进的四维分割精度。项目页面:https://batfacewayne.github.io/Multi4D.io/