每日精选AI研究论文及翻译
我们推出DeepSeek-V3.2模型,该模型在实现高计算效率的同时,兼具卓越的推理与智能体性能。DeepSeek-V3.2的核心技术突破包括:(1)DeepSeek稀疏注意力机制:我们提出了一种高效注意力机制,在长上下文场景中显著降低计算复杂度的同时保持模型性能;(2)可扩展强化学习框架:通过实施稳健的强化学习协议并扩展训练后计算量,DeepSeek-V3.2达到与GPT-5相媲美的性能。特别值得一提的是我们的高计算变体DeepSeek-V3.2-Speciale,其性能超越GPT-5,推理能力与Gemini-3.0-Pro持平,在2025年国际数学奥林匹克竞赛和国际信息学奥林匹克竞赛中均获得金牌表现;(3)大规模智能体任务合成流水线:为将推理能力融入工具使用场景,我们开发了新型合成流水线,可系统化生成大规模训练数据。该方法支持可扩展的智能体训练后优化,在复杂交互环境中显著提升泛化能力和指令遵循鲁棒性。
大型语言模型是强大的通用智能体,但在解决诸如"人类终极考试"(HLE)这类深层复杂问题时,仍面临概念性挑战和高昂计算成本。我们证明,通过小型调度器管理其他模型与多样化工具,既能突破智能水平上限,又能提升复杂智能任务的解决效率。我们提出ToolOrchestra方法,专门训练用于协调智能工具的小型调度器。该方法显式运用强化学习,融合结果感知、效率感知和用户偏好的奖励机制。基于ToolOrchestra训练的8B参数调度器Orchestrator,在保持更低成本的同时,其准确率超越以往工具使用智能体,并能根据用户偏好为特定查询分配合适工具。在HLE测试中,Orchestrator以37.1%的得分超越GPT-5(35.1%),效率提升2.5倍;在tau2-Bench和FRAMES基准上,其以仅30%的成本实现显著优势。深入分析表明,Orchestrator在多项指标下实现了性能与成本的最佳平衡,并对未见工具具备强泛化能力。这些结果证明,通过轻量级调度模型组合多样化工具,比现有方法更高效且更有效,为实用化、可扩展的工具增强推理系统开辟了新路径。
当前视频生成技术擅长制作单镜头片段,但在生成叙事性多镜头视频时仍面临挑战,这类视频需要灵活的镜头调度、连贯的叙事逻辑以及超越文本提示的控制能力。为解决这些问题,我们提出MultiShotMaster——一个高度可控的多镜头视频生成框架。我们通过集成两种新型RoPE变体对预训练单镜头模型进行扩展:首先提出多镜头叙事RoPE,在镜头转场时施加显式相位偏移,在保持时序叙事连贯性的同时实现灵活镜头调度;其次设计时空位置感知RoPE,通过引入参考令牌与 grounding 信号实现时空锚定的参考信息注入。针对数据稀缺问题,我们构建了自动化标注流水线,可提取多镜头视频、描述文本、跨镜头 grounding 信号及参考图像。本框架充分利用架构内在特性,支持具备文本驱动镜头间一致性、自定义主体运动控制、背景驱动场景定制等功能的多镜头视频生成,且镜头数量与时长均可灵活配置。大量实验表明,我们的框架在生成质量和控制能力方面均展现出卓越性能。
我们提出MG-Nav(记忆引导导航)——一种面向零样本视觉导航的双尺度框架,将全局记忆引导规划与局部几何增强控制相统一。其核心是稀疏空间记忆图(SMG),这是一种紧凑的区域中心记忆模型,每个节点聚合多视角关键帧与物体语义,在保持视点多样性的同时捕捉外观与空间结构。在全局层面,智能体基于SMG进行定位,并通过图像-实例混合检索规划目标条件节点路径,生成可达航点序列以实现长程导航引导。在局部层面,导航基础策略以点目标模式执行这些航点并实施障碍物感知控制,当从最终节点向视觉目标导航时则切换至图像目标模式。为增强视点对齐与目标识别能力,我们引入基于预训练VGGT模型的轻量级几何模块VGGT-adapter,将观测特征与目标特征对齐到共享的3D感知空间。MG-Nav以不同频率运行全局规划与局部控制,通过周期性重定位修正误差。在HM3D实例-图像-目标和MP3D图像-目标基准测试上的实验表明,MG-Nav实现了最先进的零样本性能,并在动态场景重组与未知场景条件下保持稳健性。
本文提出DualCamCtrl——一种用于相机控制视频生成的新型端到端扩散模型。现有研究通过将相机位姿表示为射线条件推动了该领域发展,但往往缺乏充分的场景理解与几何感知能力。DualCamCtrl针对这一局限,设计了双分支框架来协同生成相机一致的RGB序列与深度序列。为协调这两种模态,我们进一步提出语义引导互对齐机制(SIGMA),以语义引导和相互增强的方式实现RGB-深度融合。这些设计共同助力DualCamCtrl更好解耦外观与几何建模,生成更精准遵循指定相机轨迹的视频。此外,我们分析揭示了深度与相机位姿在去噪各阶段的差异化影响,并论证了早期与晚期阶段在构建全局结构和优化局部细节方面的互补作用。大量实验表明,DualCamCtrl实现了更一致的相机控制视频生成,相机运动误差较现有方法降低超40%。项目页面:https://soyouthinkyoucantell.github.io/dualcamctrl-page/
人工智能的自我进化长期被视为通往超智能的路径,即模型能够从自身学习经验中自主获取、优化并内化知识。然而在实践中,无引导的自进化系统往往很快陷入平台期,甚至随着训练进程出现性能退化。这些失败源于概念漂移、多样性崩溃和错误进化等问题——模型不断强化自身偏见并收敛至低熵行为。为实现稳定可控的自进化并最小化对人类监督的依赖,我们提出R-Few框架:一种融合轻量化人类监督的引导式自我博弈挑战者-求解器系统,通过情境 grounding 与混合训练实现协同进化。在每轮迭代中,挑战者基于少量人工标注样本引导生成合成问题,而求解器则依据在线难度课程同时学习人类样本与合成样本。在数学与通用推理基准测试中,R-Few实现了持续迭代提升。例如Qwen3-8B-Base模型在数学任务上较R-Zero提升3.0分,其表现与训练数据量20倍于己的General-Reasoner模型持平。消融实验证实了基于情境的挑战者训练与课程化求解器训练的互补性,进一步分析表明R-Few能有效抑制概念漂移,产生更稳定可控的协同进化动态。
尽管多模态智能体系统近期取得进展,但现有方法往往将图像操作与网络搜索视为割裂的能力,严重依赖高成本的强化学习,且缺乏基于真实工具执行轨迹的规划。为突破这些局限,我们推出Skywork-R1V4——一个拥有300亿参数(实际激活30亿)的多模态智能体模型,它统一整合了多模态规划、主动图像操作("以图像思考")、深度多模态搜索,以及最关键的在视觉操作与外部知识检索间动态交替的穿插推理能力。该模型仅通过不到3万条规划-执行一致的高质量轨迹进行监督微调,并经过逐步一致性过滤验证,在感知与多模态搜索基准测试中实现领先性能:MMSearch得分66.1,FVQA得分67.2,在全部11项指标上超越Gemini 2.5 Flash。Skywork-R1V4在推理时展现出新兴的长程推理能力,可成功协调超过10次工具调用来解决复杂多步任务。我们的结果表明,仅通过精心设计的监督学习即可实现复杂的多模态智能体能力,无需任何强化学习依赖。
实现完全自动驾驶系统需在广泛场景中学习理性决策,包括安全关键场景和分布外场景。然而此类案例在人类专家收集的真实世界数据集中占比不足。为弥补数据多样性缺失,我们提出一种新颖的可扩展仿真框架,能够在现有驾驶日志基础上合成海量未见状态。该流程采用先进神经渲染技术结合响应式环境,通过扰动自车轨迹生成高保真多视角观测数据。此外,我们为这些新模拟状态开发了伪专家轨迹生成机制以提供动作监督。基于合成数据,我们发现对真实样本与模拟样本进行简单协同训练,可使多种规划方法在挑战性真实基准测试中的鲁棒性和泛化性显著提升——在navhard上最高提升6.8 EPDMS,在navtest上提升2.9。更重要的是,仅通过增加模拟数据(无需额外真实数据流),这种策略改进就能实现平滑扩展。我们进一步揭示了此类虚实融合学习系统(命名为SimScale)的关键发现,包括伪专家设计原则及不同策略架构的扩展特性。我们的仿真数据与代码将开源发布。
大型语言模型与智能体在代码生成、数学推理和科学发现领域取得了显著进展。然而,现有基准测试主要关注结果正确性,忽视了解决方案背后方法的多样性。真正的创新不仅取决于答案的正确性,更取决于方法的原创性。我们推出InnoGym——首个系统评估AI智能体创新潜力的基准测试框架。该框架引入两个互补指标:衡量对已知最优方案改进程度的性能增益,以及捕捉方法论差异的新颖性指标。该基准包含从真实工程与科学领域精选的18项任务,每项均通过资源筛选、评估验证和方案收集实现标准化。我们还提供统一执行环境iGym,支持可复现的长周期评估。大量实验表明,虽然部分智能体能提出新颖方法,但其鲁棒性不足限制了性能提升。这些结果揭示了创造力与有效性之间的关键差距,凸显了同时评估两者的基准测试的必要性。
扩散模型在图像生成领域取得了显著成功,但其部署仍受限于高昂的计算成本和大量推理步骤的需求。现有减少步数的蒸馏方法试图通过训练紧凑的学生模型来跳过冗余步骤,但往往面临繁重的重新训练成本与泛化能力下降的问题。本研究采用全新视角:实施智能非均匀加速,对早期语义阶段施加较小加速比,而对后期冗余阶段采用较大加速比。我们通过两个分别专注于慢速与快速去噪阶段的专家模型来实现这一阶段感知策略。令人惊讶的是,无需投入大量资源重新训练学生模型,仅需为基础模型配备轻量级LoRA适配器即可同时实现高效加速与强大泛化能力。我们将这两个适配器命名为Slow-LoRA与Fast-LoRA。大量实验表明,本方法在保持跨基准测试视觉质量可比性的同时,实现了相对基础模型最高5倍的加速效果。值得注意的是,LoRA专家模型仅需使用1%的样本在单张V100显卡上训练一小时,所得模型对未见提示词仍展现出强大的泛化能力。
尽管视频到音频生成领域已取得进展,但现有研究主要聚焦于单声道输出,缺乏空间沉浸感。当前的双声道方法受限于两阶段流程:首先生成单声道音频,随后进行空间化处理,这往往导致误差累积和时空不一致问题。为突破这一局限,我们提出了从无声视频直接生成端到端双声道空间音频的新任务。为支持该任务,我们构建了BiAudio数据集,通过半自动化流程整合了约9.7万个视频-双声道音频对,涵盖多样化的真实场景及摄像机旋转轨迹。进一步,我们提出ViSAudio端到端框架,采用条件流匹配技术与双分支音频生成架构,通过两个专用分支对音频潜在流进行建模。该框架结合条件时空模块,在保持独特空间特征的同时平衡声道间一致性,确保音频与输入视频的精准时空对齐。综合实验表明,ViSAudio在客观指标和主观评估上均优于现有先进方法,能生成具有空间沉浸感的高质量双声道音频,可有效适应视角变化、声源运动及多样声学环境。项目网站:https://kszpxxzmc.github.io/ViSAudio-project。
视频大语言模型的最新进展已展现出对短视频片段强大的理解能力。然而,由于上下文容量有限以及抽象过程中关键视觉细节的丢失,将其扩展至可处理长达数小时或数天视频仍面临巨大挑战。现有基于记忆增强的方法通过利用视频片段的文本摘要来缓解这一问题,但这些方法过度依赖文本,在复杂场景推理时未能有效利用视觉证据。此外,固定时间尺度的检索机制进一步限制了其捕捉不同时长事件的灵活性。为此,我们提出WorldMM——一种新型多模态记忆智能体,它能构建并检索包含文本与视觉表征的多种互补记忆。WorldMM包含三类记忆:跨多时间尺度索引事实事件的片段记忆、持续更新高层概念知识的语义记忆,以及保留场景细节信息的视觉记忆。在推理过程中,自适应检索智能体会基于查询内容迭代选择最相关的记忆源,并利用多时间粒度进行检索,直至确定已收集足够信息。在五个长视频问答基准测试中,WorldMM显著超越现有基线模型,较之前最优方法的平均性能提升达8.4%,彰显了其在长视频推理任务上的卓越效能。
视觉-语言-动作模型在机器人操作任务中展现出卓越能力,但其性能对训练时采用的动作块长度(即规划视野)十分敏感。我们的实证研究揭示了一个内在权衡:较长视野能提供更强的全局预见性,但会削弱细粒度精度;较短视野虽能提升局部控制精度,却难以应对长期任务,这表明固定单一视野的选择具有次优性。为缓解这一矛盾,我们提出混合视野策略。该策略将动作块重组为多个不同视野的片段,通过共享动作变换器进行并行处理,并利用轻量级线性门融合输出。该方法具有三大优势:1)在单一模型内协同利用长程预见性与短程精确性,提升复杂任务下的性能与泛化能力;2)可即插即用地适配全注意力动作模块,仅增加极小的训练/推理开销;3)支持自适应视野的动态推理,通过跨视野共识筛选稳定动作,在保持优异性能的同时实现比基线高2.5倍的吞吐量。基于流策略π₀、π₀.₅和一步回归策略π_reg的大量实验表明,混合视野策略在仿真与真实任务中均能带来持续显著的性能提升。值得注意的是,在混合任务设定下,结合混合视野的π₀.₅仅需3万次训练迭代即在LIBERO基准上达到99%的平均成功率,创下新纪录。项目页面:https://github.com/Timsty1/MixtureOfHorizons
低比特量化是部署大语言模型的标准方法,然而少数极端权重和激活值会拉伸动态范围,降低量化器的有效分辨率。常见的改进方法是在量化前应用固定正交变换(如哈达玛矩阵),这通常能压缩动态范围。但这些变换忽略了数据统计特性,其最优性目前尚未得到理论阐释。本研究首次推导出闭式最优线性分块变换,可用于标准无数据量化器下权重-激活值联合量化的常见数值格式。具体而言,我们针对整数和浮点格式的最近舍入(RTN)及AbsMax缩放分块量化器,分别推导出最优自适应(数据感知)变换。最终构建的WUSH方案将哈达玛主干与基于二阶矩的数据依赖组件相结合,形成一种在温和假设下可证明最优的非正交变换,同时保持结构化以实现高效计算。初步实验结果表明,我们的方法在常见数值格式下持续优于哈达玛变换。
潜空间建模一直是扩散变换器(DiT)的标准范式。然而,该方法依赖包含预训练自编码器的两阶段流程,其有损重构特性会导致误差累积,并阻碍联合优化。为解决这些问题,我们提出PixelDiT——一种无需自编码器的单阶段端到端模型,直接在像素空间学习扩散过程。该模型采用双层级设计的全变换器架构:捕捉全局语义的块级DiT与优化纹理细节的像素级DiT协同工作,在保持精细细节的同时实现像素空间扩散模型的高效训练。分析表明,有效的像素级令牌建模是像素扩散成功的关键。PixelDiT在ImageNet 256×256数据集上取得1.61的FID分数,显著超越现有像素生成模型。我们进一步将PixelDiT扩展至文本到图像生成领域,并在像素空间完成1024×1024分辨率的预训练,其GenEval得分0.74、DPG-bench得分83.5,已接近最佳潜扩散模型性能。
近期音视频生成系统研究表明,模态耦合不仅能提升音视频同步性,更能增强视频模态本身的生成质量。我们提出一个基础性问题:即使仅关注视频质量,音视频联合去噪训练是否也能改善视频生成效果?为探究此问题,我们设计了参数高效的音视频全扩散变换器(AVFullDiT)架构,该架构利用预训练的文本-视频(T2V)与文本-音频(T2A)模块进行联合去噪。我们在相同设置下分别训练了:(i)采用AVFullDiT的T2AV模型;(ii)仅使用视频模态的对照模型。实验结果首次系统性地证明,音视频联合去噪能带来超越同步性提升的收益。在包含大幅物体运动和物体接触动作的挑战性数据子集上,我们观察到一致性的视频质量改进。我们推测音频预测作为一种特权信号,能促使模型内化视觉事件与其声学后果之间的因果关系(例如碰撞时机对声音的影响),从而对视频动态规律形成正则化约束。本研究结果表明,跨模态协同训练是开发更强大、更符合物理规律的世界模型的有效途径。相关代码与数据集将公开提供。
类比推理是人类认知的核心,在多种智力活动中发挥着基础性作用。尽管已有研究表明大语言模型能够表征任务模式和表层概念,但这些模型能否编码高层次关系概念并通过结构化比较将其应用于新情境仍不明确。本研究通过比例类比和故事类比探讨这一核心问题,并发现三个关键结论:首先,大语言模型能有效编码类比实体间的底层关系——在正确案例中,属性信息与关系信息共同在中上层传播;而推理失败则反映这些层级中关系信息的缺失。其次,与人类不同,大语言模型不仅因关系信息缺失而受阻,在将关系应用于新实体时也常显吃力,此时在关键标记位置对隐藏表征进行策略性修补可在一定程度上促进信息传递。最后,成功的类比推理以类比情境间的强结构对齐为标志,而失败案例往往表现为结构对齐的弱化或错位。总体而言,我们的研究揭示了大语言模型在编码和应用高层次关系概念时表现出初现但有限的能力,这既凸显了与人类认知的相通之处,也揭示了其存在的差距。
大语言模型(LLM)已从文本生成工具迅速发展为强大的问题解决系统。然而,众多开放型任务需要批判性思维、多源信息整合和可验证的输出能力,这已超出单次提示或标准检索增强生成的技术范畴。近年来,大量研究开始探索深度研究(DR)范式,其核心在于将大语言模型的推理能力与搜索引擎等外部工具相结合,使大语言模型能够作为研究智能体完成复杂的开放型任务。本文对深度研究系统进行了全面系统的梳理,包括明晰的发展路线图、基础组件、实践技术、关键挑战与未来方向。具体而言,我们的主要贡献包括:(一)提出三阶段发展路线图,明确区分深度研究与其他相关范式;(二)阐释查询规划、信息获取、记忆管理与答案生成四大核心组件,并为每个组件建立细粒度子分类体系;(三)总结提示工程、监督微调与智能体强化学习等优化技术;(四)整合评估标准与开放挑战,旨在为未来发展提供指引。随着深度研究领域的快速演进,我们将持续更新本综述以反映该领域最新进展。
本文提出CUDA-L2系统,通过结合大语言模型(LLM)与强化学习(RL)实现半精度通用矩阵乘(HGEMM)CUDA内核的自动优化。该系统以CUDA执行速度为RL奖励,在1,000种配置下自动优化HGEMM内核。实验表明,CUDA-L2系统性地超越了当前主流矩阵乘法基准方案:从广泛使用的{\it torch.matmul}到英伟达闭源库{\it cuBLAS}、{\it cuBLASLt}等最先进方案。在无间隔连续执行内核的离线模式下,CUDA-L2相较{\it torch.matmul}平均提升22.0%;在最优布局配置(NN正常布局与TN转置-正常布局)下超越{\it cuBLAS}达19.2%;相比基于启发式算法选择方案的{\it cuBLASLt-heuristic}提升16.8%;较最具竞争力的{\it cuBLASLt-AutoTuning}模型(从{\it cuBLASLt}提供的百个候选算法中择优)提升11.4%。在模拟实时推理的随机间隔内核执行服务器模式下,加速效果进一步提升:相对{\it torch.matmul}、{\it cuBLAS}、{\it cuBLASLt-heuristic}和{\it cuBLASLt-AutoTuning}分别达到28.7%、26.0%、22.4%和15.9%的加速比。CUDA-L2证明即使对于HGEMM这类经过深度优化的性能关键内核,通过LLM引导的RL自动化技术对人脑难以企及的大规模配置空间进行系统探索,仍能实现性能突破。项目代码详见github.com/deepreinforce-ai/CUDA-L2。
基于流匹配训练的视觉-语言-动作模型在机器人操作任务中展现出卓越能力,但其性能在分布偏移和复杂多步骤任务下常出现退化,表明所学表征可能未能稳健捕捉任务相关语义。我们提出DiG-Flow——一个通过几何正则化增强VLA鲁棒性的原理性框架。核心发现是:观察与动作嵌入间的分布差异可提供有意义的几何信号——较低的传输代价表征兼容的嵌入表示,而较高代价则暗示潜在失配。DiG-Flow通过计算观测与动作嵌入经验分布间的差异度量,经单调函数映射为调制权重,并在流匹配前对观测嵌入施加残差更新。关键在于,该干预作用于表征层面,无需修改流匹配路径或目标向量场。我们提供理论保证:差异引导的训练可证明降低训练目标,且引导的推理优化具有收缩收敛性。实证表明,DiG-Flow能以可忽略的开销集成至现有VLA架构,持续提升性能,尤其在复杂多步骤任务和有限训练数据场景下增益显著。
近期视频生成技术的突破性进展使得合成视频具备高度时序一致性与惊艳的视觉质量,这标志着向视觉基础模型迈出了关键一步。为评估此类视频生成模型,现有基准主要关注视觉感知与理解相关要素,如视觉美学、指令遵循度和时序连贯性。然而,视频生成模型的规则推理能力仍属未充分探索的领域。尽管近期研究对视频模型能否作为零样本学习者进行了初步探索,但仍缺乏对推理能力的细粒度解构与系统化评估方案。为此,我们推出RULER-Bench基准测试框架,旨在从认知规则视角评估视频生成模型的推理能力。该框架基于文本到视频和图像到视频两大基础范式,涵盖六大规则类别下的40项代表性任务,包含622个高质量标注实例。针对每个生成视频的评估,我们构建了覆盖四项指标的检查清单,并利用GPT-3对每个问题进行自动评分,其与人工评判的一致性达到85%。大量实验表明,当前最优模型在规则连贯性指标上仅达到48.87%的得分,这凸显了下一代视频模型在推理能力方面存在显著提升空间。我们期望通过RULER-Bench获得的洞见能推动具有推理意识的视频生成技术发展,助力视频生成模型向视觉基础智能迈进。
表格识别(TR)旨在将表格图像转换为HTML或Markdown等半结构化表示。作为文档解析的核心组件,该技术长期依赖监督学习,近期研究主要通过标注数据微调视觉语言模型(VLM)来实现。尽管VLM将表格识别性能提升至新高度,但进一步突破需要耗费巨大成本获取大规模标注数据。这导致专有模型持续刷新性能纪录的同时,受限于资源约束且因隐私法规成为多数用户唯一可行选择的开源模型仍存在明显差距。为弥合这一鸿沟,我们提出TRivia——一种基于自监督的微调方法,使预训练VLM能够直接从真实场景的无标注表格图像中学习表格识别技术。该方法基于群体相对策略优化框架,自动识别最能促进学习效果的无标注样本,并通过问答式奖励机制消除对人工标注的依赖。其注意力引导模块为每个表格图像生成多样化问题,而模型对识别结果的解析能力和正确回答问题能力则为优化提供反馈。这种闭环学习机制使表格识别模型无需标注数据即可自主掌握表格的识别、结构化与推理能力。基于此 pipeline,我们推出TRivia-3B模型:一个开源、轻量且达到最先进水平的表格识别系统,在三大主流基准测试中超越现有系统(如Gemini 2.5 Pro、MinerU2.5)。模型与代码已发布于:https://github.com/opendatalab/TRivia
我们提出MagicQuill V2创新系统,通过引入分层组合范式到生成式图像编辑领域,成功弥合了扩散模型的语义生成能力与传统图形软件精细化控制之间的鸿沟。尽管扩散变换器在整体生成方面表现卓越,但其使用的单一整体提示词难以区分用户在内容、位置和外观等方面的不同创作意图。为此,我们的方法将创作意图解构为可控制的视觉线索堆栈:内容层定义生成对象,空间层确定布局位置,结构层控制形态特征,色彩层管理配色方案。技术贡献包括:面向上下文感知内容整合的专用数据生成流程、处理所有视觉线索的统一控制模块,以及支持精确局部编辑(含物体移除)的微调空间分支。大量实验证明,这种分层方法能有效解决用户意图偏差问题,为创作者提供直接直观的生成过程控制。
我们研究了不同思维链(CoT)设计如何影响视觉语言模型(VLMs)中可泛化视觉推理能力的习得。尽管CoT数据(尤其是长文本或视觉化CoT,如“基于图像的思考”)已被广泛用于监督中间推理过程,但特定CoT设计为何有效、哪些设计能真正支持可泛化推理仍不明确。为系统评估这一问题,我们采用可控的迷宫求解基准测试:其推理规则完全基于视觉,难度可通过网格尺寸调节,且所有中间步骤均可自动生成。在标准SFT后接RL的训练流程下,我们使用Qwen2.5-VL-7B模型比较了三种典型CoT格式:语言CoT、定位CoT(含空间坐标轨迹)和视觉CoT(含图像操作)。实验表明:视觉化/长文本CoT主要加速收敛但未提升最终性能上限;仅包含必要定位步骤的简洁CoT优于长轨迹CoT;尤为重要的是,仅保留最简定位信息的CoT在不同迷宫尺寸中展现出最佳泛化能力。我们进一步在其他视觉中心任务中验证了这些发现。这些结果揭示了“短即长”效应,为构建更具泛化性的视觉推理SFT数据集提供了实践指导。
物理人工智能旨在开发能够感知并预测现实世界动态的模型,然而当前多模态大语言模型与视频生成模型对这些能力的支持程度尚未得到充分认知。我们推出物理AI基准测试(PAI-Bench),该统一综合性基准通过视频生成、条件视频生成和视频理解三大任务评估感知与预测能力,包含2,808个真实场景案例,并采用任务导向的度量指标以捕捉物理合理性与领域特异性推理。本研究对前沿模型进行系统评估,发现视频生成模型虽具有较强视觉保真度,却常难以保持物理连贯的动态表现;而多模态大语言模型在动态预测与因果推理方面存在明显局限。这些现象表明现有系统尚处于满足物理AI感知与预测需求的初级阶段。总体而言,PAI-Bench为评估物理AI建立了现实基础,并揭示了未来系统需解决的关键技术缺口。
我们研究视频生成模型能否仅凭视觉数据展现人类认知核心能力——视觉空间智能。为此,我们提出Video4Spatial框架,证明仅以视频场景上下文为条件的扩散模型能完成复杂空间任务。我们在两项任务上验证:场景导航(遵循相机位姿指令同时保持与场景三维几何一致)和物体定位(需兼具语义定位、指令执行与路径规划能力)。两项任务均仅使用视频输入,无需深度或位姿等辅助模态。通过框架设计与数据策展的简洁有效方案,Video4Spatial展现出基于视频上下文的强大空间理解能力:端到端规划导航路径并定位目标物体,在遵循相机位姿指令时保持空间一致性,且能泛化至长时序场景及域外环境。这些成果共同推动视频生成模型向通用视觉空间推理迈进。
尽管基于大语言模型/视觉语言模型的智能体在数学、代码编程和计算机操作领域发展迅猛,但它们在复杂物理环境与社会场景中的应用仍面临挑战。要构建能够在实际世界中生存发展(例如通过自主创收或运营企业)的智能体,需要在大规模具身场景中进行海量交互、推理、训练与评估。然而现有世界模拟器存在明显局限:往往依赖有限的手工构建环境,模拟简化的游戏化物理规则与社会机制,且缺乏对大语言模型/视觉语言模型智能体的原生支持。我们推出基于虚幻引擎5构建的新型模拟器SimWorld,专为在高度拟真的开放世界环境中开发与评估大语言模型/视觉语言模型智能体而设计。该平台具备三大核心功能:(1)逼真的开放式世界模拟,包含精确的物理社会动态及语言驱动的程序化环境生成;(2)面向智能体的丰富交互接口,支持多模态世界信息输入与多层级开放词汇动作指令;(3)可灵活定制的多样化物理社会推理场景。我们通过部署前沿大语言模型智能体(如GPT-4o、Gemini-2.5-Flash、Claude-3.5和DeepSeek-Prover-V2)进行涉及战略合作与竞争的长周期多智能体配送任务,展示了SimWorld的性能。实验结果揭示了不同模型独特的推理模式与能力边界。我们已将SimWorld开源,期待其成为推动跨学科现实世界智能体研究的基础平台:https://simworld.org。
基于预训练视觉语言模型构建的视觉-语言-动作模型展现出强大潜力,但由于参数量庞大,实际应用受限。为缓解该问题,已有研究尝试采用轻量化视觉语言模型,但这会削弱时空推理能力。虽然部分方法指出引入额外三维输入可改善性能,但这些方案通常依赖大型视觉语言模型来融合三维与二维输入,且仍缺乏时序理解能力。为此,我们提出SwiftVLA架构,在保持设计效率的同时,为紧凑模型赋予四维理解能力。具体而言,我们采用带时序缓存的预训练四维视觉几何变换器,从二维图像中提取四维特征。随后引入融合令牌——一组通过未来预测目标训练的可学习令牌,用于生成统一表征以增强视觉语言模型协同利用二维图像与四维特征的能力。最后,我们设计掩码重构策略:对输入视觉语言模型的四维数据进行掩码处理,并训练模型进行重构,使视觉语言模型能学习有效的四维表征,且推理时可移除四维分支而仅产生微小性能损失。真实与模拟环境中的实验表明,SwiftVLA性能优于轻量级基线模型,并与参数量达其7倍的视觉-语言-动作模型相当,在边缘设备上实现相近性能的同时,速度提升18倍且内存占用减少12倍。
尽管基于音频驱动的虚拟人视频生成扩散模型在生成具有自然音画同步与身份一致性的长序列方面已取得显著进展,但包含摄像机运动的音乐表演视频生成领域仍鲜有探索。我们提出YingVideo-MV——首个面向音乐驱动长视频生成的级联框架。该方法融合音频语义解析、可解释镜头规划模块(MV-Director)、时序感知扩散Transformer架构以及长序列一致性建模,实现了从音频信号自动生成高质量音乐表演视频。通过采集网络数据构建的大规模野外音乐数据集,为生成多样化高质量结果提供支撑。针对现有长视频生成方法缺乏显式摄像机运动控制的问题,我们引入摄像机适配器模块将相机位姿嵌入隐空间噪声。为提升长序列推理中片段间的连贯性,进一步提出基于音频嵌入自适应调整去噪范围的时序动态窗口策略。综合基准测试表明,YingVideo-MV在生成连贯富有表现力的音乐视频方面表现卓越,并能实现精准的音乐-动作-摄像机同步。更多视频请见项目页面:https://giantailab.github.io/YingVideo-MV/。
我们推出Ovis-Image——一个专门针对高质量文本渲染优化的70亿参数文生图模型,其设计可在严格算力限制下高效运行。该模型基于我们先前提出的Ovis-U1框架,将基于扩散的视觉解码器与更强大的Ovis 2.5多模态主干网络相结合,采用以文本为中心的训练流程,融合了大规模预训练与精心设计的训练后优化。尽管架构紧凑,Ovis-Image的文本渲染性能却可与Qwen-Image等参数量显著更大的开源模型相媲美,并逼近Seedream、GPT4o等闭源系统。关键优势在于,该模型仅需单张高端GPU配合适中显存即可部署,大幅缩小了前沿文本渲染技术与实际应用之间的鸿沟。实验结果表明:通过将强大多模态主干网络与精心设计的文本导向训练方案相结合,无需依赖超大参数规模或专有模型,即可实现可靠的双语文本渲染能力。
生成分钟级视频是发展世界模型的关键一步,其为构建逼真长场景和高级AI模拟器奠定基础。新兴的半自回归(块扩散)范式融合了扩散模型与自回归模型的优势,通过KV缓存和并行采样实现任意长度视频生成并提升推理效率。然而该方法仍面临两大长期挑战:(i)KV缓存导致的长期误差累积;(ii)缺乏细粒度长视频基准与连贯性感知指标。为突破这些局限,我们提出BlockVid——一种配备语义感知稀疏KV缓存的新型块扩散框架,结合名为"块强制"的有效训练策略,以及专有的分块噪声调度与混洗机制,以降低误差传播并增强时序一致性。我们进一步推出LV-Bench细粒度分钟级视频基准,配套评估长程连贯性的新指标。在VBench和LV-Bench上的大量实验表明,BlockVid在生成高质量、高连贯性分钟级视频方面持续优于现有方法。特别是在LV-Bench上,其VDE主体指标较最优方法提升22.2%,VDE清晰度指标提升19.4%。项目网站:https://ziplab.co/BlockVid。代码库:https://github.com/alibaba-damo-academy/Inferix。
如今,人们能够轻松使用多种消费级摄像机记录音乐会、体育赛事、讲座、家庭聚会和生日派对等难忘时刻。然而,这些跨摄像机视频流的同步仍具挑战性。现有方法通常依赖受控环境、特定目标、人工校正或昂贵硬件。我们提出VisualSync——一种基于多视角动态学的优化框架,能以毫秒级精度对齐无固定机位、未同步的视频。我们的核心发现是:任何在双摄像机中共视的移动三维点,在正确同步后必然满足极几何约束。基于此,VisualSync利用现成的三维重建、特征匹配与密集追踪技术来提取轨迹片段、相对位姿及跨视角对应关系,继而通过联合最小化极线误差来估算各摄像机的时间偏移。在四个多样化高难度数据集上的实验表明,VisualSync优于基线方法,实现了中位数同步误差低于50毫秒的精度。
基于多视角图像的3D重建是计算机视觉领域的核心挑战。近年来,前馈方法已成为传统逐场景优化技术的高效鲁棒替代方案。其中,视觉几何定位变换器(VGGT)等先进模型通过对所有图像令牌进行全局自注意力来捕捉空间关系,但该方法因自注意力的二次方复杂度及长图像序列产生的大量令牌而存在可扩展性不足的问题。本文提出FlashVGGT,通过基于描述符的注意力机制突破这一瓶颈。该方案不再对所有令牌实施稠密全局注意力,而是将每帧的空间信息压缩为紧凑的描述符令牌集合,随后通过完整图像令牌集与小型描述符集之间的交叉注意力计算全局关系,显著降低计算开销。此外,描述符的紧凑性支持通过分块递归机制实现长序列在线推理,该机制可复用历史分块的缓存描述符。实验表明,FlashVGGT在重建精度上与VGGT持平,但对1000张图像的推理时间降至VGGT的9.3%,并能有效扩展至超过3000张图像的长序列。项目页面详见https://wzpscott.github.io/flashvggt_page/。
自回归语言模型与扩散语言模型构成大语言模型的两大主流范式,但二者均存在推理能力不足的缺陷。人类推理本质上依赖于因果知识与思维,这种特性在自然语言中得以体现。然而在自回归范式下,语言被建模为下一词元预测(严格遵循从左到右的词元级顺序),而自然语言本身具有更灵活的因果结构。在扩散范式下,注意力机制采用全连接方式,完全忽略了因果顺序。为填补这一空白,我们提出\textbf{因}果\textbf{概}念引导的\textbf{扩}散\textbf{语}言\textbf{模}型(C²DLM)。该模型从扩散语言模型的全连接注意力机制出发,首先通过教师模型获取概念级因果图,进而显式引导注意力学习概念间的因果关系。通过聚焦因果关系并规避涉及因果逆变的困难子目标干扰,C²DLM在COT-OrderPerturb任务中实现12%的性能提升与约3.2倍训练加速,并在六项下游推理任务中平均增益达1.31%。更多细节详见代码库~https://github.com/Kairong-Han/C-2-DLM{此处}。
掩码扩散语言模型(MDLM)近期作为自回归语言模型(ARLM)的替代方案崭露头角,其采用的去噪目标在原理上应能实现更均衡的上下文利用。本研究系统考察了MDLM的上下文理解能力,揭示出两个关键局限:首先,尽管具备更全局的训练目标和双向注意力机制,MDLM与ARLM类似仍存在显著的局部性偏好——模型性能对输入中关键信息的位置高度敏感,更倾向于利用局部而非远距离上下文;其次,我们发现生成所需的大量追加掩码会显著削弱模型的上下文理解能力。通过系统性消融实验,这些掩码被证实会作为干扰项降低模型处理关键信息的能力。为此,我们提出一种掩码无关的损失函数,使预测结果对追加掩码数量保持恒定。基于该目标的微调有效缓解了掩码的干扰效应,显著提升了MDLM的鲁棒性。总体而言,我们的研究揭示了当前MDLM训练范式的关键缺陷,并为构建具有更强上下文理解能力的扩散式语言模型提供了可行路径。
智能视觉语言模型正日益通过调用图像操作来实现"以图思考"。然而我们发现,最终答案的高准确率往往掩盖了视觉推理的不忠实性:模型可能对无关区域调用工具,或完全忽略工具输出,却仍能猜出正确答案。本研究首先提出忠实性评估方案,通过检测中间视觉工具输出(如图像裁剪区域)是否真正包含查询证据来衡量推理可靠性。实验表明,当前视觉智能体在视觉搜索基准测试中虽获得高准确率,但工具使用的忠实率普遍偏低。 为此,我们推出CodeV——基于代码的视觉智能体,采用工具感知策略优化(TAPO)进行训练。TAPO是一种流程级强化学习框架,在GRPO基础上引入直接作用于视觉工具输入输出的密集奖励机制,而非思维链标记。这种监督方式更易验证且能有效规避奖励破解问题。CodeV将视觉工具实现为可执行Python代码,TAPO仅根据问题和工具输出分配逐步奖励,从而促进必要且证据一致的工具使用。 通过两阶段SFT+RL训练流程,CodeV在相关视觉搜索基准上不仅实现具有竞争力的准确率,更显著提升工具使用忠实率。除视觉搜索外,CodeV在多模态推理和数学基准测试中同样表现优异,证明对中间工具行为进行显式监督对于构建可信赖的智能视觉推理系统具有关键意义。
欧几里得几何的自动定理证明,特别是针对国际数学奥林匹克(IMO)难度级别的问题,仍是人工智能领域的重大挑战与重要研究方向。本文提出一种完全在CPU上运行、不依赖神经网络推理的高效几何定理证明方法。初步研究表明,简单的随机辅助点添加策略即可在IMO问题上达到银牌级别的人类表现。基于此,我们进一步提出HAGeo——一种基于启发式规则的几何演绎辅助构造方法,该方法在IMO-30基准测试中成功解决30道题中的28道,达到金牌级别表现,并以明显优势超越基于神经网络的竞争性方法AlphaGeometry。为更全面评估现有方法,我们构建了包含409道人工标注难度几何题的HAGeo-409基准测试集。与广泛使用的IMO-30相比,新基准提出了更大挑战,能提供更精确的评估,为几何定理证明设立了更高标准。
视频生成的下一个前沿在于开发具备零样本推理能力的模型,其中对现实世界科学定律的理解对于不同条件下精确物理结果建模至关重要。然而现有视频基准主要基于物理常识,难以深入评估视频模型的科学推理能力。我们推出VideoScience-Bench基准测试,专门用于评估视频模型对本科层次科学原理的理解能力。每个提示词均编码了复合科学场景,要求模型理解并综合运用多学科概念才能生成正确现象。该基准包含200个精心设计的提示词,涵盖物理和化学领域的14个主题、103个核心概念。我们针对七种前沿视频模型(含文生视频和图生视频场景)进行了专家标注的五维评估:提示一致性、现象符合度、动态正确性、属性恒常性和时空连续性。通过采用视觉语言模型作为评判器对视频生成结果进行评估,我们发现其与人工评估结果高度相关。据我们所知,VideoScience-Bench是首个将视频模型不仅视为生成器、更作为推理器进行评估的基准,要求生成内容展现出与预期物理化学现象相符的科学理解。我们的数据与评估代码已开源:https://github.com/hao-ai-lab/VideoScience。
人像视频编辑是一项具有挑战性的任务,需要对诸如外貌调整、表情修改或物体添加等广泛改动实现灵活而精准的控制。其核心难点在于保持主体原有的时序行为,要求每一帧编辑结果都与源视频帧保持精确同步。我们提出Sync-LoRA方法,在实现高质量视觉修改的同时,能够保持帧级同步精度与身份一致性。该方法基于图像到视频的扩散模型,通过修改首帧定义编辑效果,并将其传播至整个序列。为实现精准同步,我们使用描绘相同运动轨迹但外观各异的配对视频训练上下文LoRA模型。这些配对数据通过基于同步性的筛选流程自动生成和优化,仅选取时序对齐度最高的样本进行训练。该训练方案使模型能够将源视频的运动线索与编辑首帧引入的视觉变化相结合。通过在精挑细选的同步人像数据集上训练,Sync-LoRA可泛化至未知身份与多样编辑场景(如外貌修改、物体添加或背景变更),稳健处理姿态与表情变化。实验结果表明,该方法在视觉保真度和时序连贯性方面表现优异,实现了编辑精度与运动保持的稳健平衡。
随着GPT-4o、Nano Banana、Seedream 4.0等强大多模态模型在图像编辑领域的快速发展,闭源与开源模型之间的性能差距正在扩大,这主要源于大规模高质量训练数据的稀缺性,以及缺乏能够全面诊断模型在多样化编辑行为中弱点的基准测试体系。现有数据构建方法面临规模与质量的权衡:人工标注质量高但难以规模化,而自动化流程则存在错误传播和噪声问题。为此,我们提出一种轻量级数据流水线,通过端到端模型和统一的后验证阶段替代多工具链流程。为实现规模化质量控制,我们训练了70亿参数的双任务专家模型Qwen-Verify,用于高效执行错误检测和指令重描述。该流水线最终产出UnicEdit-10M——一个涵盖多样化基础与复杂编辑任务的千万级数据集。我们还提出通用基准测试UnicBench,其突破基础编辑范畴,显式评估空间推理与知识驱动推理能力。为实现细粒度诊断,我们引入了非编辑区域一致性和推理准确率等新型评估指标。基于UnicBench对主流模型的深入分析,不仅揭示了现有模型的局限性,更为未来研究指明了清晰方向。
随着大视觉语言模型的快速发展,图形用户界面智能体任务的研究重心正从单屏幕操作转向复杂屏幕导航挑战。然而现实中的GUI环境(如PC软件和移动应用)往往具有复杂性和专有性,难以获取智能体训练与评估所需的完整环境信息,这一局限阻碍了对智能体导航能力的系统性研究与基准测试。为此,我们推出GUI探索实验室——一个专为GUI智能体导航研究设计的模拟环境引擎,支持灵活定义和组合屏幕、图标及导航图谱,同时提供完全环境信息访问权限以实现全面的智能体训练与评估。通过大量实验发现,监督微调能有效记忆基础知识,为后续训练奠定关键基础;在此基础上,单轮强化学习可进一步增强对未见过场景的泛化能力;最终通过多轮强化学习促使智能体在交互试错中形成探索策略,从而持续提升屏幕导航性能。我们在静态与交互式基准测试中验证了方法的有效性,证明研究成果能良好泛化至实际场景。这些发现揭示了强化学习方法在GUI导航中的优势,为构建更强大、更可泛化的GUI智能体提供了实践指导。
大型多模态模型在理解与生成任务上均取得显著进展。近期研究致力于构建统一的多模态模型,通过整合异构组件在单一框架内支持双重能力。然而这种统一会引发推理低效问题,例如特定任务或样本可能无需调用统一模型的全部知识或容量。但目前对于这些低效现象在不同组件中的具体表现仍缺乏系统性认知。本研究首次采用免训练剪枝作为探测方法,从深度剪枝和宽度缩减两个维度对统一多模态模型组件进行系统分析。实验表明:理解组件在理解与生成任务中均表现出显著可压缩性,且在生成任务中更为明显;而生成组件对压缩高度敏感,即使中等压缩比也会导致性能急剧下降。针对此局限,我们受不同样本间动态激活模式的启发,提出混合专家适配方法。该方案将生成模块划分为多个专家并启用稀疏激活以恢复生成质量。通过专家冻结调优验证稀疏激活的有效性后,进一步证明全参数可训练的适配策略能带来额外增益。最终改进的BAGEL模型仅激活约半数参数即可达到与完整模型相当的性能。代码已发布于https://github.com/Shwai-He/SparseUnifiedModel{此链接}。
近期,视觉感知策略的强化学习框架开始引入自然语言表达的中间推理链。实证研究表明,这种纯语言形式的中间推理往往会降低感知任务的表现。我们认为核心问题不在于推理本身而在于推理形式:这些推理链在非结构化的语言空间进行语义推理,而视觉感知需要在以物体为中心的空间维度进行推理。为此,我们提出Artemis感知策略学习框架,其采用基于候选框的结构化推理方式——每个中间步骤均表示为可验证视觉状态的(标签,边界框)对。该设计能显式追踪中间状态,直接监督候选框质量,并规避语言推理引入的歧义。基于Qwen2.5-VL-3B构建的Artemis在定位与检测任务中表现优异,并在计数与几何感知任务上展现出强大泛化能力。多场景下的持续改进证实,将推理与空间表征对齐能有效增强感知策略学习。得益于强化后的视觉推理能力,Artemis在通用多模态大模型基准测试中也展现出竞争力,证明基于空间锚定的推理为构建可扩展、泛化性强的感知策略提供了理论路径。
教育全球化与在线学习的迅猛发展使得教育内容本地化成为关键挑战。讲座材料本质上是多模态的,结合了语音音频与视觉幻灯片,这要求系统具备处理多种输入模态的能力。为提供无障碍的完整学习体验,译文必须保留所有模态:可阅读的文本、辅助视觉理解的幻灯片以及适于听觉学习的语音。我们推出BOOM——一种多模态多语言讲座伴侣系统,它能联合翻译讲座音频与幻灯片,生成跨三种模态的同步输出:翻译文本、保留视觉元素的本地化幻灯片以及合成语音。这种端到端的方法使学生能以母语获取讲座内容,同时力求完整保留原始资料。实验表明,具备幻灯片感知的转录文本还能为摘要生成和问答等下游任务带来连锁增益。我们在https://github.com/saikoneru/image-translator 发布幻灯片翻译代码,并将其集成至讲座翻译系统https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline(注:所有公开代码与模型均采用MIT许可证)。
当前最先进的视频场景图生成(VSGG)系统虽能提供结构化视觉理解,但采用封闭式前馈流程运行,无法融入人工引导。相比之下,SAM2等可提示分割模型支持精确的用户交互,却缺乏语义或关系推理能力。我们提出Click2Graph——首个面向全景视频场景图生成(PVSG)的交互式框架,将视觉提示与空间、时间和语义理解相融合。仅需用户一次点击或边界框提示,Click2Graph即可跨时段分割追踪目标主体,自主发现交互对象,并预测<主体,客体,谓词>三元组以构建时序一致的场景图。该框架包含两大核心组件:生成主体条件化对象提示的动态交互发现模块,以及执行联合实体与谓词推理的语义分类头。在OpenPVSG基准测试中的实验表明,Click2Graph为用户引导式PVSG奠定了坚实基础,展现了如何将人工提示与全景定位及关系推理相结合,实现可控可解释的视频场景理解。