每日精选AI研究论文及翻译
我们推出Ovis2.5,作为Ovis2的继任者,专为原生分辨率视觉感知与强大多模态推理而设计。Ovis2.5集成了一个原生分辨率视觉Transformer,能够以图像的原生可变分辨率进行处理,避免了固定分辨率分块带来的质量下降,同时保留了精细细节与全局布局——这对于复杂图表等视觉密集内容至关重要。为增强推理能力,我们训练模型超越线性思维链,执行反思——包括自我检查与修正。这一高级能力在推理时作为可选的“思考模式”呈现,允许用户在延迟与困难输入上的准确性之间做出权衡。模型通过一个全面的五阶段课程进行训练,逐步构建其技能。该过程始于基础视觉与多模态预训练,经过大规模指令调优,最终利用DPO和GRPO进行对齐与推理增强。为高效扩展这些升级,我们采用多模态数据打包与混合并行策略,实现了显著的端到端加速。我们发布了两款开源模型:Ovis2.5-9B与Ovis2.5-2B。后者延续了Ovis2“小模型,大性能”的理念,非常适合资源受限的端侧场景。在OpenCompass多模态排行榜上,Ovis2.5-9B平均得分78.3,较其前身Ovis2-8B有显著提升,并在40B参数以下的开源MLLM中达到顶尖水平;Ovis2.5-2B得分73.9,确立了其规模下的SOTA地位。除了综合得分,Ovis2.5在STEM基准测试中取得领先成绩,在基础任务与视频任务上展现出强大能力,并在复杂图表分析方面实现了其规模下的开源SOTA。
长篇故事与小说的叙事理解一直是一个颇具挑战性的领域,这归因于其错综复杂的情节线以及角色与实体间交织且不断演变的关系。鉴于大型语言模型(LLM)在处理长上下文时的推理能力受限及高昂的计算成本,基于检索的方法在实践中仍占据核心地位。然而,传统的检索增强生成(RAG)方法因其无状态、单步检索的特性,往往难以捕捉长程上下文中相互关联关系的动态变化。在本研究中,我们提出了ComoRAG,其核心理念是:叙事推理并非一次性过程,而是新证据获取与过往知识巩固之间动态演进的交互,类似于人类大脑在处理记忆相关信号时的认知机制。具体而言,当遇到推理瓶颈时,ComoRAG会通过与动态记忆工作区的交互进行迭代推理循环。在每一轮循环中,它生成探测性查询以开辟新的探索路径,随后将检索到的新方面证据整合至全局记忆池中,从而为查询解决构建连贯的上下文背景。在四个具有挑战性的长上下文叙事基准测试(超过20万词)中,ComoRAG相较于最强的RAG基线模型,实现了高达11%的相对性能提升。深入分析表明,ComoRAG在处理需要全局理解的复杂查询时尤为有效,为基于检索的长上下文理解提供了一种原则性强、认知启发的状态推理范式。我们的代码已公开发布于https://github.com/EternityJune25/ComoRAG。
我们提出了4DNeX,这是首个从单张图像生成4D(即动态3D)场景表征的前馈框架。与现有方法依赖计算密集型的优化或需要多帧视频输入不同,4DNeX通过微调预训练的视频扩散模型,实现了高效的端到端图像到4D生成。具体而言:1)为缓解4D数据稀缺问题,我们构建了4DNeX-10M,这是一个利用先进重建方法生成高质量4D标注的大规模数据集;2)我们引入了一种统一的6D视频表征,联合建模RGB和XYZ序列,促进外观与几何的结构化学习;3)我们提出了一系列简单而有效的适应策略,将预训练的视频扩散模型重新用于4D建模。4DNeX生成的高质量动态点云支持新视角视频合成。大量实验表明,4DNeX在效率和泛化能力上均优于现有的4D生成方法,为图像到4D建模提供了可扩展的解决方案,并为模拟动态场景演化的生成式4D世界模型奠定了基础。
大型语言模型(LLMs)在语言理解、生成、推理等方面取得了显著成果,并推动了多模态模型的能力边界。作为现代LLMs基础的Transformer模型,提供了具有优异扩展特性的强大基线。然而,传统Transformer架构需要大量计算资源,给大规模训练和实际部署带来了显著障碍。本综述系统性地探讨了针对Transformer固有局限的创新LLM架构,旨在提升效率。从语言建模出发,本文涵盖了线性与稀疏序列建模方法、高效全注意力变体、稀疏专家混合、融合上述技术的混合模型架构,以及新兴的扩散型LLMs的背景与技术细节。此外,我们还讨论了这些技术在其他模态上的应用,并思考了它们对开发可扩展、资源感知的基础模型的广泛意义。通过将近期研究归类于上述范畴,本综述呈现了现代高效LLM架构的蓝图,我们期望这能激励未来研究朝着更高效、多功能的AI系统迈进。
我们提出了一种新颖的图像生成方法,通过将图像分解为结构化序列,其中序列中的每个元素共享相同的空间分辨率,但使用的唯一标记数量不同,从而捕捉不同层次的视觉粒度。图像生成通过我们新引入的“下一视觉粒度”(NVG)生成框架进行,该框架从空白图像开始,逐步细化,从全局布局到细节,以结构化的方式生成视觉粒度序列。这一迭代过程编码了一种分层、分层的表示,提供了跨多个粒度级别的生成过程的精细控制。我们在ImageNet数据集上训练了一系列用于类别条件图像生成的NVG模型,并观察到了明显的扩展行为。与VAR系列相比,NVG在FID分数上持续表现更优(3.30 -> 3.03, 2.57 -> 2.44, 2.09 -> 2.06)。我们还进行了广泛的分析,展示了NVG框架的能力和潜力。我们的代码和模型将会公开发布。
无分类器引导(Classifier-free Guidance, CFG)是现代扩散模型中广泛采用的一项技术,旨在提升样本质量与提示遵循度。然而,通过对具有闭式解的高斯混合模型进行实证分析,我们观察到CFG产生的次优结果与真实情况之间存在偏差。模型对这些次优预测的过度依赖,常常导致语义不连贯及输出质量低下。为解决这一问题,我们首先通过实验证明,利用模型自身的子网络可有效精炼这些次优预测。基于这一发现,我们提出了S^2-引导,一种创新方法,该方法在前向过程中采用随机块丢弃策略构建随机子网络,有效引导模型避开潜在的低质量预测,朝向高质量输出迈进。在文本到图像及文本到视频生成任务上的大量定性与定量实验表明,S^2-引导展现出卓越性能,持续超越CFG及其他先进引导策略。我们的代码将予以公开。
大型语言模型(LLMs)对提示词措辞和格式的细微、非语义变化极为敏感。在本研究中,我们首次在统一实验框架下系统评估了五种提升提示鲁棒性的方法。我们基于Llama、Qwen和Gemma系列中的8个模型,在自然指令数据集的52项任务上对这些技术进行了基准测试。评估涵盖了微调和上下文学习两种范式下的鲁棒性方法,并测试了它们对多种分布偏移的泛化能力。最后,我们将分析扩展至GPT-4.1和DeepSeek V3,以评估前沿模型当前对格式扰动的鲁棒性。我们的研究结果为这些鲁棒性方法的相对有效性提供了可操作的见解,使实践者在追求现实应用中稳定可靠的大型语言模型性能时能够做出明智决策。代码详见:https://github.com/AIRI-Institute/when-punctuation-matters。
近年来,多模态模型取得了显著进展。然而,它们在空间理解和推理方面仍存在明显局限,而这些能力是实现人工通用智能的基础。随着近期号称迄今为止最强大AI模型的GPT-5的发布,审视领先模型在空间智能发展路径上的现状恰逢其时。首先,我们提出了一套统一现有基准的空间任务分类体系,并讨论了确保公平评估所面临的挑战。随后,我们在八个关键基准上对最先进的专有和开源模型进行了评估,消耗的总token数超过十亿。我们的实证研究揭示:(1) GPT-5在空间智能方面展现出前所未有的强大能力,但(2)在广泛任务范围内仍未能达到人类水平。此外,我们(3)识别出对多模态模型更具挑战性的空间智能问题,且(4)在面对最困难问题时,专有模型并未展现出决定性优势。此外,我们还进行了一系列定性评估,涵盖了对人类直观却令最先进多模态模型都难以应对的多样化场景。
近期在交互式视频生成领域的进展表明,扩散模型作为世界模型具有巨大潜力,能够捕捉复杂的物理动态和交互行为。然而,现有的交互式世界模型依赖于双向注意力机制和冗长的推理步骤,严重限制了实时性能。因此,它们难以模拟现实世界的动态,其中结果必须基于历史背景和当前动作即时更新。为解决这一问题,我们提出了Matrix-Game 2.0,这是一种通过少步自回归扩散实时生成长视频的交互式世界模型。我们的框架包含三个关键组件:(1)一个可扩展的数据生产管道,用于Unreal Engine和GTA5环境,以高效生成大量(约1200小时)带有多样化交互注释的视频数据;(2)一个动作注入模块,支持将帧级鼠标和键盘输入作为交互条件;(3)基于因果架构的少步蒸馏,用于实时和流式视频生成。Matrix Game 2.0能够以25 FPS的超快速度跨多样场景生成高质量分钟级视频。我们开源了模型权重和代码库,以推动交互式世界建模的研究。
大型语言模型(LLMs)在数学和编程等分步推理任务中展现了卓越的能力,但在需要长期、结构化且相互依赖行动序列的长远规划方面,其熟练程度仍待深入探索。现有基准测试通常通过抽象或低维算法任务来评估LLMs,未能捕捉现实规划环境的复杂性。为此,我们引入了HeroBench,这是一个专为评估复杂RPG风格虚拟世界中的长远规划与结构化推理而设计的新颖基准。HeroBench提供了一个精心构建的任务数据集,涵盖多种难度级别,一个用于执行和验证智能体计划的模拟环境,以及用于评估模型性能的详细分析工具。这些任务挑战模型制定战略计划、高效收集资源、掌握必要技能、制作装备并击败对手,反映了实际场景中的层次依赖与约束。我们对包括GPT-5系列在内的25个最先进的LLMs进行了广泛评估,涵盖了开源和专有模型,揭示了在传统推理基准中罕见的显著性能差异。详细的错误分析进一步揭示了当前模型在生成稳健高层计划和可靠执行结构化行动方面的具体弱点。因此,HeroBench不仅显著推进了LLM推理能力的评估,还为未来在虚拟环境中进行高级自主规划研究提供了一个灵活、可扩展的基础。
我们推出了AuriStream,这是一种受生物启发的模型,通过一个两阶段框架来编码语音,该框架灵感源自人类听觉处理层次结构。第一阶段将原始音频转换为基于人耳蜗的时间-频率表示,并从中提取离散的耳蜗标记。第二阶段则在耳蜗标记上应用自回归序列模型。AuriStream能够学习到有意义的音素和词汇表示,以及最先进的词汇语义。在多种下游SUPERB语音任务中,AuriStream展现了极具竞争力的性能。除了强大的表征能力外,AuriStream还能生成音频的延续部分,这些部分可在频谱图中可视化并解码回音频,为模型预测提供了深入洞察。总之,我们提出了一个两阶段的语音表示学习框架,旨在推动开发出更类人、能高效处理各类语音任务的模型。
视频重光照是一项具有挑战性且极具价值的任务,旨在替换视频背景的同时,相应地调整前景的光照,实现和谐融合。在转换过程中,必须保持前景的原始属性,如反照率,并确保时间帧间光照调整的一致性。本文提出Lumen,一个基于大规模视频生成模型的端到端视频重光照框架,能够接收灵活的文本描述来指导光照和背景的控制。考虑到高质量、相同前景在不同光照条件下的配对视频稀缺,我们构建了一个包含真实与合成视频的大规模数据集。在合成领域,得益于社区丰富的3D资源,我们利用先进的3D渲染引擎制作了多样环境下的视频对。在真实领域,我们采用基于HDR的光照模拟技术,以弥补野外配对视频的不足。依托上述数据集,我们设计了一套联合训练课程,有效发挥各领域的优势,即合成视频中的物理一致性,以及真实视频中的广义领域分布。为此,我们在模型中引入了一个领域感知适配器,以解耦重光照与领域外观分布的学习。我们构建了一个全面的基准测试,从前景保持和视频一致性评估的角度,对Lumen及现有方法进行评价。实验结果表明,Lumen能够有效地将输入编辑为具有一致光照和严格前景保持的电影级重光照视频。我们的项目页面:https://lumen-relight.github.io/
基于可验证奖励的强化学习(RLVR)已成为增强大型语言模型(LLMs)的强大范式,OpenAI的o系列模型便是其成功典范。在RLVR中,奖励源自可验证的信号——例如代码生成中通过单元测试或数学推理中匹配正确答案。尽管有效,这一要求很大程度上将RLVR局限于具有自动可检查结果的领域。为突破此限制,我们通过整合基于量规的奖励,将RLVR范式扩展至开放式任务,其中精心设计的量规作为结构化、模型可解释的标准,用于自动评分主观输出。我们构建了迄今为止最大的量规奖励系统,包含超过10,000个由人类、LLMs或人机协作生成的量规。实施基于量规的强化学习颇具挑战;我们通过清晰的框架应对这些问题,并开源了Qwen-30B-A3B模型,取得了显著成效:1)仅用5,000+样本,我们的系统在开放式基准测试(尤其是人文学科)上提升了+5.2%,以+2.4%的优势超越671B的DeepSeek-V3模型,同时保持了一般和推理能力。2)我们的方法提供了细粒度的风格控制,利用量规作为锚点,减轻“AI腔调”,生成更人性化、富有表现力的回答。我们分享了量规构建、数据选择和训练的关键经验,并讨论了局限性和未来发布计划。
我们提出了G-CUT3R,一种新颖的前馈式引导三维场景重建方法,通过整合先验信息来增强CUT3R模型。与现有仅依赖输入图像的前馈方法不同,我们的方法利用了现实场景中常见的辅助数据,如深度信息、相机校准参数或相机位置。我们对CUT3R进行了轻量级改进,为每种模态引入专用编码器以提取特征,并通过零卷积将这些特征与RGB图像标记融合。这种灵活的设计使得在推理过程中能够无缝整合任意组合的先验信息。在包括三维重建及其他多视图任务在内的多个基准测试中,我们的方法展现了显著的性能提升,证明了其有效利用可用先验信息的能力,同时保持了与不同输入模态的兼容性。
我们提出了视觉动作提示,这是一种统一的动作表示方法,用于生成复杂高自由度交互的动作到视频,同时保持跨领域的可迁移视觉动态特性。动作驱动的视频生成面临精度与通用性的权衡:现有方法使用文本、基础动作或粗略掩码虽具通用性但缺乏精度,而基于智能体的动作信号虽提供精度却牺牲了跨领域迁移能力。为平衡动作精度与动态迁移性,我们提出将动作“渲染”为精确的视觉提示,作为领域无关的表示,既保留几何精度又支持复杂动作的跨领域适应性;具体而言,我们选择视觉骨架因其通用性与易获取性。我们设计了稳健的流程,从两类交互丰富的数据源——人-物交互(HOI)和灵巧机器人操作——构建骨架,支持动作驱动生成模型的跨领域训练。通过轻量级微调将视觉骨架整合至预训练的视频生成模型中,我们实现了对复杂交互的精确动作控制,同时保留了跨领域动态的学习能力。在EgoVid、RT-1和DROID上的实验验证了所提方法的有效性。项目页面:https://zju3dv.github.io/VAP/。
传统的多模态学习方法需要通过昂贵的对齐预训练来桥接视觉与语言模态,通常将视觉特征投影到离散的文本标记空间中。我们通过提出Inverse-LLaVA这一新方法,挑战了这一范式背后的两个基本假设,彻底消除了对齐预训练的需求,并反转了传统的映射方向。我们的方法不是将视觉特征投影到文本空间,而是将文本嵌入映射到连续的视觉表示空间,并在Transformer的中间层进行融合。通过在注意力机制中引入选择性加性组件,我们实现了视觉与文本表示的动态整合,而无需依赖大规模图像-文本对齐数据集。在九个多模态基准上的全面实验展示了性能的微妙权衡:Inverse-LLaVA在推理密集型和认知任务上取得了显著提升(MM-VET:+0.2%,VizWiz:+1.8%,ScienceQA:+0.2%,认知推理:+27.2%),而在需要记忆视觉-文本关联的感知任务上则出现了预期的下降(名人识别:-49.5%,OCR:-21.3%)。这些结果首次提供了实证证据,表明对齐预训练对于有效的多模态学习并非必需,尤其是在复杂推理任务中。我们的工作确立了一种新范式的可行性,该范式将计算需求减少了45%,挑战了关于模态融合的传统观念,并为保留模态特定特征的高效多模态架构开辟了新的研究方向。我们的项目网站提供了代码和额外资源,访问地址为https://inverse-llava.github.io。
机器遗忘(Machine Unlearning, MU)旨在从已训练模型中移除特定训练数据,确保这些被移除的数据不再影响模型行为,从而满足数据隐私法规中的“被遗忘权”要求。然而,我们注意到,在这一迅速兴起的领域中,研究人员在分析和理解不同MU方法的行为时面临挑战,特别是在MU的三大基本原则——准确性、效率和隐私方面。因此,他们往往依赖于聚合指标和临时性评估,难以准确权衡不同方法之间的利弊。为填补这一空白,我们引入了一个视觉分析系统——遗忘比较器(Unlearning Comparator),旨在促进MU方法的系统性评估。我们的系统支持评估过程中的两项重要任务:模型比较和攻击模拟。首先,它允许用户在类别、实例和层级等多个层面上比较两个模型的行为,例如通过特定方法生成的模型与重新训练的基线模型,以更深入地理解遗忘后发生的变化。其次,我们的系统通过模拟成员推断攻击(Membership Inference Attacks, MIAs)来评估方法的隐私性,攻击者试图判断特定数据样本是否属于原始训练集。通过案例研究,我们评估了该系统对主要MU方法的可视化分析能力,并证明它不仅帮助用户理解模型行为,还能为MU方法的改进提供深刻见解。
大型推理模型(LRMs)在数学领域展现出了卓越的问题解决能力,这一点通过现有基准测试在定义明确问题上的评估得到了验证。然而,这种评估设置存在一个关键缺陷,因为一个真正智能的代理不仅应能解决问题(如数学测验解答器),还应在问题信息不足时主动请求补充信息,从而实现对用户需求的积极响应。为填补这一空白,我们提出了一个包含多种情境下两类不完整问题的新数据集。基于该数据集,我们对LRMs进行了系统性评估,揭示了它们在主动寻求信息方面的不足。此外,我们还发现了LRMs在过度思考和幻觉方面的行为特征,并强调了监督微调在学习此类能力中的潜力与挑战。我们期望为开发具备真正智能而非仅能解决问题的LRMs提供新的洞见。
我们探究了多模态大语言模型(MLLMs)在准确识别输入图像旋转角度(0°、90°、180°、270°)方面的能力。这一任务要求模型具备强大的视觉推理能力,以检测旋转线索并理解图像内部的空间关系,无论其方向如何。为评估MLLMs在此类能力上的表现,我们引入了RotBench——一个包含350张经过人工筛选的生活、肖像和风景图像的基准测试集。尽管任务看似简单,我们发现包括GPT-5、o3和Gemini-2.5-Pro在内的多个先进开源及专有MLLMs,均无法可靠地识别输入图像的旋转状态。为模型提供辅助信息——如图像描述、深度图等——或采用思维链提示,仅带来微小且不稳定的改进。我们的结果表明,大多数模型能可靠识别正置(0°)图像,部分模型能识别倒置(180°)图像,但无一能可靠区分90°与270°旋转。同时展示不同旋转方向的图像,对推理模型带来中等程度的性能提升,而采用投票机制的改进设置则提升了较弱模型的表现。进一步研究表明,微调虽显著提升了模型识别180°旋转图像的能力,却未能改善其区分90°与270°旋转的能力。这些结果共同揭示了MLLMs在空间推理能力与人类感知旋转方面存在的显著差距。