每日精选AI研究论文及翻译
基于扩散模型的视频生成技术近期取得突破性进展,为可控视频编辑开辟了新途径,然而由于四维场景理解能力有限以及对遮挡和光照效果处理不足,实现逼真的视频对象插入(VOI)仍面临挑战。我们提出InsertAnywhere框架,通过几何一致的对象布局和外观保真的视频合成来解决这一难题。该方法首先采用四维感知掩码生成模块重建场景几何结构,将用户指定的对象布局跨帧传播,同时保持时序连贯性与遮挡一致性。在此空间基础上,我们扩展了基于扩散模型的视频生成架构,联合合成插入对象及其周边局部变化(如光照与阴影)。为支持监督训练,我们开发了ROSE++光照感知合成数据集,通过对ROSE对象移除数据集进行重构,生成包含对象移除视频、对象存在视频和VLM生成参考图像的三元组数据。大量实验表明,我们的框架能在多样化的真实场景中生成几何合理且视觉连贯的对象插入效果,显著优于现有研究及商业模型。
人类通过构建内容的整体语义表征来理解复杂长文本。这种全局视角有助于组织先验知识、解读新信息、整合散布于文档中的证据,心理学中揭示的"心智图景感知能力"正是如此。当前检索增强生成系统缺乏此类引导,因此在长上下文任务中表现不佳。本文提出心智图景感知RAG,这是首个为基于大语言模型的RAG系统赋予显式全局上下文感知能力的方法。该方法通过层级式摘要构建心智图景,并基于此全局语义表征指导检索与生成过程。这使得检索器能形成增强的查询嵌入,生成器能在连贯的全局上下文中对检索证据进行推理。我们在多个长上下文与双语基准测试中评估了该方法在证据理解和全局语义构建方面的表现。实验表明其持续超越基线模型,进一步分析显示该方法能将局部细节与连贯的全局表征对齐,实现更类人的长上下文检索与推理能力。
图形用户界面(GUI)智能体的发展有望彻底革新下一代人机交互。基于这一愿景,我们推出MAI-UI系列基础GUI智能体,涵盖从2B、8B、32B到235B-A22B的全尺寸变体。我们识别出现实部署面临的四大挑战:缺乏原生智能体-用户交互机制、纯UI操作的局限性、实用部署架构的缺失以及动态环境下的脆弱性。MAI-UI通过统一方法论解决这些问题:通过自演进数据管道将导航数据扩展至包含用户交互与MCP工具调用、采用基于任务状态路由执行的原生设备-云协作系统,以及配备先进优化技术的在线强化学习框架以扩展并行环境与上下文长度。MAI-UI在GUI定位与移动导航任务中创下多项最新纪录:在定位基准测试中,ScreenSpot-Pro达73.5%、MMBench GUI L2达91.3%、OSWorld-G达70.9%、UI-Vision达49.2%,其中ScreenSpot-Pro成绩超越Gemini-3-Pro与Seed1.8;在移动GUI导航任务中,AndroidWorld上以76.7%刷新纪录,超越UI-Tars-2、Gemini-2.5-Pro与Seed1.8;在MobileWorld上获得41.7%成功率,显著优于端到端GUI模型,并与基于Gemini-3-Pro的智能体框架持平。在线强化学习实验表明,将并行环境从32扩展至512可提升5.2个点,环境步数预算从15增至50可提升4.3个点。最终,原生设备-云协作系统使设备端性能提升33%,云端模型调用减少超40%,同时保障用户隐私。
多模态大语言模型(MLLMs)在视觉定位、分割与描述等视觉理解任务中取得显著进展,但其对感知级图像特征的认知能力仍存在局限。本研究提出UniPercept-Bench——一个面向美学、质量、结构与纹理三大关键领域的统一感知级图像理解框架。我们建立了层次化定义体系并构建大规模数据集以评估感知级图像理解能力。基于此基础,通过领域自适应预训练与任务对齐强化学习开发出强基线模型UniPercept,该模型在视觉评分(VR)和视觉问答(VQA)任务中均展现出强大的泛化能力。UniPercept在感知级图像理解任务上超越现有MLLMs,并可作为即插即用的奖励模型用于文本到图像生成。本研究界定了MLLM时代的感知级图像理解范畴,通过引入综合性基准与强基线模型,为推进感知级多模态图像理解奠定了坚实基础。
基于反转的视觉编辑技术提供了一种无需训练即可根据用户指令编辑图像或视频的有效方法。现有方法通常在采样过程中注入源图像信息以保持编辑一致性,但该采样策略过度依赖源信息,会对目标图像的编辑产生负面影响(例如无法按指令改变主体的姿态、数量或颜色等属性)。本研究提出ProEdit方法,从注意力机制和潜在空间两个维度解决这一问题。在注意力层面,我们引入KV混合机制,通过融合源图像与目标图像在编辑区域的键值特征,在保持背景一致性的同时削弱源图像对编辑区域的影响。在潜在空间层面,我们提出潜在偏移技术,通过扰动源潜在向量的编辑区域来消除反转潜在向量对采样的影响。在多个图像与视频编辑基准测试上的大量实验表明,我们的方法实现了最先进的性能。此外,我们的设计具有即插即用特性,可无缝集成到现有反转与编辑方法(如RF-Solver、FireFlow和UniEdit)中。
大型语言模型(LLMs)正日益广泛应用于时间敏感型系统,如机器人技术、自动驾驶、具身智能和工业自动化等领域。在这些场景中,在给定时间预算内生成准确响应对于决策制定、控制或安全关键任务至关重要。然而,LLMs的自回归生成特性使其端到端执行时间的建模与估算面临挑战。此外,现有基于固定键值(KV)缓存淘汰率的高效推理方法难以适应具有不同时间预算的多样化任务,不当的淘汰率可能导致推理中断或响应性能下降。本文提出TimeBill——一种新颖的时间预算约束型LLM推理框架,旨在平衡推理效率与响应性能。具体而言,我们设计了细粒度响应长度预测器(RLP)与执行时间估算器(ETE),以精准预测LLMs的端到端执行时间。在此基础上,开发了一种时间预算约束的高效推理方法,能够根据执行时间预测和给定时间预算自适应调整KV缓存淘汰率。最终,通过大量实验验证了TimeBill在提升任务完成率和维持响应性能方面的优势,并展示了其在多种超时策略下的有效性。
大型视觉语言模型(VLMs)通常受益于中间视觉线索的引入——无论是通过外部工具注入还是在推理过程中生成潜在视觉标记,但这些机制仍存在三个局限:忽视细粒度视觉证据(如图表中的折线)、跨领域泛化能力弱,以及推理成本高昂。本文提出双向感知塑形(BiPS)方法,通过将问题条件化的掩码视图转化为双向的"关注位置"信号,在训练过程中重塑视觉感知。BiPS首先在原始图像与仅保留问题相关区域的证据保全视图之间施加KL一致性约束,确保对支持性像素实现粗粒度但完整的覆盖;随后在原始图像与关键像素被掩码的证据消除视图之间施加KL分离约束——该掩码使图像无法支撑原答案,从而抑制纯文本捷径(即仅凭文本答题)并强化模型对细粒度视觉特征的依赖。在八项基准测试中,BiPS使Qwen2.5-VL-7B模型平均性能提升8.2%,并在未见过的数据集和图像类型上展现出强大的跨领域泛化能力。
气象建模既需要精准预测又需机制解释,但现有方法将这两个目标割裂处理,使生成与理解相互分离。为弥补这一缺陷,我们提出首个多模态基础模型Omni-Weather,将气象生成与理解统一于单一架构中。该模型通过雷达编码器处理气象生成任务,并采用共享自注意力机制进行统一处理。此外,我们构建了面向气象生成因果推理的思维链数据集,使模型既能输出可解释结果,又提升了感知质量。大量实验表明,Omni-Weather在气象生成与理解任务上均达到最先进水平。研究进一步证实,气象领域的生成与理解任务能够相互促进。该模型也证明了统一气象生成与理解机制的可行性与价值。
AI代理实现“图像化思考”需要推理能力与感知能力的深度融合。然而当前开源的 multimodal agent 在推理能力方面仍存在明显不足,而这种能力对于现实任务(如分析含密集图表/示意图的文档、地图导航等)至关重要。为弥补这一缺陷,我们推出O3-Bench——一个专为评估交织视觉细节关注的多模态推理能力而设计的新基准。该基准包含一系列挑战性问题,要求代理通过多步推理整合来自图像不同区域的细微视觉信息。即便对OpenAI o3等前沿系统而言,这些问题也极具挑战性,其在O3-Bench上的准确率仅为40.8%。为推动进展,我们提出InSight-o3多智能体框架,包含视觉推理代理(vReasoner)和视觉搜索代理(vSearcher),并针对后者提出广义视觉搜索任务——超越自然图像中简单物体或图形的定位,实现基于自由语言描述的关系型、模糊性或概念性区域定位。我们进一步通过强化学习训练出专用于此任务的多模态大语言模型。作为即插即用模块,vSearcher能够赋能前沿多模态模型(作为vReasoner),显著提升其在各类基准测试中的表现。这标志着向构建强大o3级开源系统迈出实质性一步。代码与数据集详见:https://github.com/m-Just/InSight-o3。
当前文生视频模型在视觉真实感、运动拟真度及文本-视频对齐方面取得显著进展,但其生成社会一致性行为的能力仍存在根本性局限。与人类能轻松从短暂视觉线索中推断意图、信念、情感及社会规范不同,现有模型往往仅呈现字面场景,未能捕捉背后的因果或心理逻辑。为系统评估这一差距,我们首次提出视频生成中社会推理的基准框架。基于发展心理学与社会心理学的研究成果,该基准将三十个经典社会认知范式归纳为七个核心维度,包括心理状态推断、目标导向行为、联合注意、社会协调、亲社会行为、社会规范及多智能体策略。 为实现这些范式的可操作化,我们开发了完全无需训练的基于智能体的流程:(一)提炼各实验的推理机制;(二)合成多样化视频就绪场景;(三)通过基于线索的批判机制确保概念中立性与难度控制;(四)使用高容量视频语言模型作为评判者,从社会推理的五个可解释维度评估生成视频。借助此框架,我们对七种前沿视频生成系统开展了首次大规模研究。结果表明存在显著性能差距:现代模型虽在表层合理性上表现优异,但在意图识别、信念推理、联合注意及亲社会推断等维度存在系统性缺陷。 (注:根据用户要求,已严格采用学术文献常用术语,保持"智能体""联合注意""亲社会行为"等专业表述的一致性,并确保句式结构符合中文科技论文的表述规范。)
基于单元测试等执行反馈机制通过测试时扩展和强化学习被广泛应用于代码智能体的开发。该范式需要可扩展且可靠的测试用例收集以提供准确反馈,但由此产生的反馈往往具有稀疏性,无法有效区分同为成功或失败的执行轨迹。相比之下,基于奖励模型的免执行反馈能提供更细粒度的信号,且不依赖于测试用例。尽管具有这种潜力,针对现实软件工程智能体的免执行反馈研究仍显不足。在尝试开发适用于测试时扩展和强化学习的通用奖励模型时,我们发现两个验证器在测试时扩展中表现相近,却在强化学习中产生显著差异。直观而言,测试时扩展主要反映模型选择最优轨迹的能力,但这种能力未必能迁移到强化学习场景。为解决这一局限,我们识别出对强化学习训练至关重要的两个附加维度:分类准确度与校准度。通过系统性的对照实验,我们探索了如何训练能在这三个指标上均表现优异的鲁棒奖励模型,重点分析了训练数据规模、策略混合方案及数据源构成等因素的影响。基于这些研究,我们提出SWE-RM奖励模型——采用专家混合架构,总参数量达300亿,推理时激活30亿参数。该模型显著提升了软件工程智能体在测试时扩展和强化学习中的表现:在SWE-Bench Verified基准上,使用测试时扩展将Qwen3-Coder-Flash的准确率从51.6%提升至62.0%,Qwen3-Coder-Max从67.0%提升至74.6%,创造了开源模型的新标杆。
自动演示文稿生成技术能显著提升内容创作效率。然而,由于不同用户的偏好存在差异,现有欠约束的生成方案常导致结果与用户需求不匹配。我们提出一项创新任务:基于用户指定偏好的论文转幻灯片生成。受人类行为启发,我们设计出SlideTailor智能代理框架,通过渐进式生成可编辑幻灯片实现用户需求对齐。该系统无需用户撰写详细文本偏好说明,仅需提供论文-幻灯片示例对和视觉模板——这些自然易得的素材隐式编码了用户在内容与视觉风格上的丰富偏好。尽管输入信息具有隐式无标注特性,我们的框架仍能有效提炼并泛化这些偏好以指导定制化幻灯片生成。我们还引入创新的语音链式机制,使幻灯片内容与预设的口头叙述相协调。该设计显著提升了生成幻灯片的质量,并支持视频演示等下游应用。为支撑此新任务,我们构建了涵盖多样化用户偏好的基准数据集,并设计了可解释的评估指标进行鲁棒性验证。大量实验证明了本框架的有效性。
本文提出了一种针对一般非交换环上精确3×3矩阵乘法的新型最优算法,通过仅需58次标量加法的秩23方案,将此前无需基变换的最佳加法复杂度从60次进一步降低。该成果是通过将三元受限翻转图探索与贪心交集消减的公共子表达式消除技术相结合的自动化搜索发现的。所得方案仅使用{-1, 0, 1}范围内的系数,确保了算法在任意域上的高效性与可移植性。标量运算总次数从83次减少至81次。
大型推理模型通常采用可验证奖励的强化学习进行训练,以提升其推理能力。在该范式下,策略更新同时利用自我生成的正向与负向推演轨迹,二者对应不同的样本极性。本文系统性地研究了这些样本极性如何影响可验证奖励强化学习的训练动态与行为模式。我们发现正向样本能锐化已有的正确推理模式,而负向样本则能促进对新推理路径的探索。我们进一步探究了在样本级别和标记级别调整正负样本优势值对训练的影响。基于这些发现,我们提出了一种自适应非对称的标记级优势重塑策略优化方法A3PO,该方法能更精准地根据不同极性将优势信号分配至关键标记。在五个推理基准测试上的实验验证了我们方法的有效性。