每日精选AI研究论文及翻译
我们推出InternVL 3.5,这是一个全新的开源多模态模型家族,在InternVL系列的基础上显著提升了多功能性、推理能力和推理效率。其核心创新在于级联强化学习(Cascade RL)框架,该框架通过两阶段过程增强推理能力:离线RL确保稳定收敛,在线RL实现精细对齐。这种由粗到精的训练策略在下游推理任务(如MMMU和MathVista)上带来了显著改进。为优化效率,我们提出了视觉分辨率路由器(ViR),它能动态调整视觉令牌的分辨率而不影响性能。结合ViR,我们的解耦视觉-语言部署(DvD)策略将视觉编码器和语言模型分别部署于不同GPU上,有效平衡了计算负载。这些贡献共同使InternVL3.5在整体推理性能上较前代InternVL3提升了高达+16.0%,推理速度加快了4.05倍。此外,InternVL3.5还支持GUI交互和具身代理等新功能。值得注意的是,我们最大的模型InternVL3.5-241B-A28B在开源多模态大语言模型(MLLMs)中,于通用多模态、推理、文本及代理任务上均取得了最先进成果,缩小了与GPT-5等领先商业模型的性能差距。所有模型及代码均已公开发布。
尽管近期自回归模型在文本到图像(T2I)生成领域取得了显著进展,但其处理多属性和模糊提示的能力仍显不足。为应对这些局限,现有研究已采用思维链(CoT)实现阶段感知的视觉合成,并运用强化学习(RL)以增强推理能力。然而,多数模型仅在生成阶段结束时提供奖励信号。这种单一、仅最终阶段的指导方式难以识别哪些阶段对最终结果有积极贡献,可能导致策略次优。为解决此问题,我们提出了一种视觉指导链(Visual-CoG)范式,包含语义推理、过程优化和结果评估三个阶段,通过阶段感知的奖励在整个图像生成流程中提供即时指导。此外,我们构建了一个视觉认知基准测试VisCog-Bench,包含四个子任务,用于评估语义推理的有效性。在GenEval、T2I-CompBench及所提出的VisCog-Bench上的全面评估显示,改进幅度分别达到15%、5%和19%,充分证明了Visual-CoG的卓越性能。我们将尽快发布所有相关资源。
文本到3D生成技术通过利用预训练的2D扩散先验取得了显著进展,能够生成高质量且3D一致的结果。然而,这些方法在处理域外(OOD)或罕见概念时往往表现不佳,导致结果不一致或不准确。为此,我们提出了MV-RAG,一种新颖的文本到3D生成流程,该流程首先从大规模真实世界2D图像库中检索相关图像,然后基于这些图像条件化多视角扩散模型,以合成一致且准确的多视角输出。训练这种基于检索的条件化模型采用了一种新颖的混合策略,该策略将结构化多视角数据与多样化的2D图像集合相结合。具体而言,一方面通过使用增强的条件视角来模拟检索差异,针对特定视角的重构进行多视角数据训练;另一方面,利用一组检索到的真实世界2D图像,采用独特的保留视角预测目标进行训练:模型从其他视角预测保留视角,从而从2D数据中推断3D一致性。为了进行严格的OOD评估,我们引入了一套具有挑战性的OOD提示集合。与最先进的文本到3D、图像到3D以及个性化基线方法的对比实验表明,我们的方法在处理OOD/罕见概念时,显著提升了3D一致性、照片真实感及文本遵循度,同时在标准基准测试中保持了竞争力。
我们提出了T2I-ReasonBench,这是一个评估文本到图像(T2I)模型推理能力的基准。该基准包含四个维度:成语理解、文本图像设计、实体推理和科学推理。我们设计了一个两阶段的评估协议,用以衡量推理准确性和图像质量。我们对多种T2I生成模型进行了基准测试,并对其表现进行了全面分析。
视觉-语言模型(VLMs)在通过将视觉输入转换为视觉标记来理解带有语言指令的视觉内容方面展现了卓越的性能。然而,视觉标记中的冗余导致了VLMs推理效率的下降。尽管已有许多算法被提出以减少视觉标记的数量,但大多数仅利用单模态信息(即视觉/文本)进行剪枝,忽视了视觉-语言任务固有的多模态特性。此外,缺乏一个适用于不同模态的通用标准。为缓解这一局限,本工作提出利用视觉和文本标记,通过覆盖准则选择信息丰富的视觉标记。我们首先将子集选择问题形式化为最大覆盖问题。随后,优化一个视觉标记子集,使其同时覆盖文本标记和原始视觉标记集。最后,可采用VLM代理进一步提升文本标记的质量,以指导视觉剪枝。所提出的方法MMTok在不同VLMs的基准数据集上进行了广泛评估。对比结果表明,视觉与文本信息具有互补性,结合多模态信息能显著超越单模态基线。此外,在POPE数据集上采用最大覆盖准则,我们的方法实现了1.87倍的加速,同时保持了LLaVA-NeXT-13B模型98.7%的原始性能。更有甚者,仅使用四个视觉标记,仍能保留LLaVA-1.5-7B模型87.7%的原始性能。这些结果凸显了覆盖准则在标记选择中的有效性。
近期,大型语言模型(LLMs)的进展凸显了强化学习(RL)在促进推理能力涌现方面的潜力。尽管取得了令人鼓舞的成果,但一个根本性难题依然存在:RL的改进依赖于从高质量样本中学习,而此类样本的探索却受限于LLMs的固有局限。这实际上形成了一个不良循环,即无法探索的内容也就无法学习。在本研究中,我们提出了“Rubric-Scaffolded Reinforcement Learning”(RuscaRL),一种新颖的教学支架框架,旨在突破通用LLM推理的探索瓶颈。具体而言,RuscaRL引入了清单式评分标准作为:(1)在生成阶段为探索提供显式支架,通过任务指令中提供不同的评分标准作为外部指导,引导多样化的高质量响应。这种指导随时间逐渐衰减,鼓励模型内化底层的推理模式;(2)在模型训练期间为利用提供可验证的奖励,通过以评分标准为参考,获得稳健的LLM-as-a-Judge评分,从而在通用推理任务上实现有效的RL。大量实验证明了所提出的RuscaRL在多个基准测试中的优越性,有效扩展了在最佳N评估下的推理边界。值得注意的是,RuscaRL将Qwen-2.5-7B-Instruct在HealthBench-500上的得分从23.6显著提升至50.3,超越了GPT-4.1。此外,我们在Qwen3-30B-A3B-Instruct上的微调变体在HealthBench-500上达到了61.1分,超越了包括OpenAI-o3在内的领先LLMs。
推理是大语言模型的核心能力,然而理解它们如何学习并执行多步推理仍是一个未解之谜。在本研究中,我们探讨了不同架构和训练方法如何影响模型在细胞自动机框架下的多步推理能力。通过使用随机布尔函数生成的、针对随机初始条件的状态序列进行训练,以排除记忆效应,我们证明了大多数神经网络架构能够抽象出底层规则。尽管模型在下一状态预测上达到了高准确率,但若需进行多步推理,其性能则急剧下降。我们证实,增加模型深度对于序列计算起着至关重要的作用。我们进一步展示,通过引入循环、记忆机制以及测试时计算扩展来有效增加模型深度,能显著提升其推理能力。
我们研究了为何工具集成推理(Tool-Integrated Reasoning, TIR)能增强大语言模型(LLMs)的能力。尽管与Python代码解释器等工具集成的LLMs展现出巨大潜力,但解释这一范式为何有效的理论框架一直缺失。本研究首次提供了形式化证明,表明TIR从根本上扩展了LLM的能力。我们证明,工具能够严格扩展模型的经验与可行支持范围,突破纯文本模型的能力上限,解锁原本不可能或极其冗长的问题解决策略。为了在不影响训练稳定性和性能的前提下引导模型行为,我们还引入了优势塑造策略优化(Advantage Shaping Policy Optimization, ASPO),这是一种直接修改优势函数以指导策略行为的新算法。我们在具有挑战性的数学基准上进行了全面实验,利用Python解释器作为外部工具。结果显示,TIR模型在pass@k指标上显著优于纯文本模型。重要的是,这一优势不仅限于计算密集型问题,还延伸至需要深刻抽象洞察的问题。我们进一步识别了模型如何学会借助工具思考的涌现认知模式。最后,我们报告了通过早期代码调用和更多交互轮次,ASPO改善了工具使用行为。总体而言,我们的工作首次为TIR的成功提供了理论解释,将关注点从工具有效这一事实转向了它们为何及如何促成更强大的推理能力。
我们推出了Hermes 4系列模型,这是一组融合了结构化多轮推理与广泛指令跟随能力的混合推理模型。本文详细阐述了在数据整理、合成、训练及评估过程中遇到的挑战,并概述了为大规模应对这些挑战所采用的解决方案。我们全面评估了模型在数学推理、编程、知识理解、阅读理解及对齐基准测试中的表现,既报告了量化性能,也进行了定性行为分析。为支持开放研究,所有模型权重均已公开发布于https://huggingface.co/collections/NousResearch/hermes-4-collection-68a731bfd452e20816725728。
基于大语言模型(LLMs)构建的多智能体系统在处理复杂组合任务方面展现出了卓越的能力。在本研究中,我们将这一范式应用于论文到海报的生成问题,这是研究人员准备会议时面临的一项实际但耗时的过程。尽管近期已有方法尝试自动化这一任务,但大多忽视了核心设计与美学原则,导致生成的海报需要大量手动调整。针对这些设计局限,我们提出了PosterGen,一个模拟专业海报设计师工作流程的多智能体框架。该框架由四个协作的专门化智能体组成:(1)解析与策划智能体从论文中提取内容并组织故事板;(2)布局智能体将内容映射为连贯的空间布局;(3)风格设计师智能体应用如色彩与排版等视觉设计元素;(4)渲染器合成最终海报。这些智能体共同作用,生成既语义扎实又视觉吸引人的海报。为评估设计质量,我们引入了一种基于视觉-语言模型(VLM)的评分标准,用于衡量布局平衡性、可读性及美学一致性。实验结果表明,PosterGen在内容保真度上始终匹配,并在视觉设计上显著超越现有方法,生成的海报几乎无需人工修饰即可直接用于展示。
基准测试塑造着人工智能研究的进程。一个有效的基准测试应兼具难度与真实性:问题既要挑战前沿模型,又要反映实际应用场景。然而,当前范式面临难度与真实性之间的张力:考试风格的基准测试往往人为增加难度,却缺乏现实价值;而基于真实用户交互的基准测试则倾向于简单、高频的问题。本研究中,我们探索了一种截然不同的范式:在未解问题上评估模型。不同于一次性评分的静态基准,我们精选未解问题,并通过验证者辅助筛选与社区验证,随时间异步评估模型。我们推出了UQ,一个包含500个挑战性、多样化问题的测试平台,问题源自Stack Exchange,涵盖从计算机科学理论、数学到科幻与历史等多个主题,考察推理、事实准确性和信息检索等能力。UQ在设计上既具难度又贴近现实:未解问题通常难度较高,且自然产生于人类寻求答案的过程中,因此解决它们能直接带来现实价值。我们的贡献有三方面:(1) UQ数据集及其收集流程,结合基于规则的过滤器、大语言模型评判与人工审核,确保问题质量(如定义明确且具挑战性);(2) UQ验证器,采用复合验证策略,利用生成器与验证器之间的差距提供评估信号,并预先筛选候选解决方案供人工审核;(3) UQ平台,一个开放平台,专家在此共同验证问题与解决方案。顶尖模型仅能通过15%的UQ验证问题,初步人工验证已识别出通过验证中的正确答案。UQ为评估前沿模型在现实世界开放性挑战中的表现开辟了道路,成功将推动人类知识的前沿。我们已在https://uq.stanford.edu发布UQ。
近期,大规模视觉语言模型(VLMs)的进展主要集中在英语领域,对其他语言的关注相对有限。为填补这一空白,我们推出了MEENA(亦称波斯MMMU),这是首个专为评估波斯语VLMs在科学、推理及人类理解任务上的表现而设计的数据集。该数据集包含约7,500道波斯语及3,000道英语问题,广泛覆盖推理、数学、物理、图表解析以及波斯艺术与文学等多个主题。MEENA的核心特色包括:(1)多样化的学科内容,涵盖从小学到高中的各个教育阶段;(2)丰富的元数据,如难度等级与详细解答;(3)原创波斯语数据,保留文化细微差异;(4)双语结构,用于评估跨语言表现;(5)一系列多样化实验,评估包括整体性能、模型对图像的关注度及其产生幻觉倾向在内的多项能力。我们期望这一基准能为提升VLMs在非英语领域的能力做出贡献。
半结构化表格在现实应用中广泛使用(如财务报告、医疗记录、交易订单),通常包含灵活且复杂的布局(如分层表头和合并单元格)。这些表格通常依赖人工分析师解读表格布局并回答相关的自然语言问题,这种方式成本高且效率低。为了自动化这一过程,现有方法面临重大挑战。首先,像NL2SQL这样的方法需要将半结构化表格转换为结构化表格,这往往导致大量信息丢失。其次,NL2Code和多模态LLM QA等方法难以理解半结构化表格的复杂布局,无法准确回答相应问题。为此,我们提出了ST-Raptor,一个基于树的框架,利用大语言模型进行半结构化表格问答。首先,我们引入了层次正交树(HO-Tree),这是一种捕捉复杂半结构化表格布局的结构模型,并提供了构建该树的有效算法。其次,我们定义了一组基本树操作,以指导LLMs执行常见的问答任务。给定用户问题,ST-Raptor将其分解为更简单的子问题,生成相应的树操作管道,并进行操作-表格对齐以确保管道执行的准确性。第三,我们引入了一个两阶段验证机制:前向验证检查执行步骤的正确性,而后向验证通过从预测答案重构查询来评估答案的可靠性。为了评估性能,我们提出了SSTQA,一个包含102个真实世界半结构化表格的764个问题的数据集。实验表明,ST-Raptor在答案准确率上比九种基线方法高出最多20%。代码可在https://github.com/weAIDB/ST-Raptor获取。
表面重建在计算机视觉和图形学领域已被广泛研究。然而,现有表面重建方法在处理输入视角极其稀疏时,难以恢复精确的场景几何。为解决这一问题,我们提出了MeshSplat,一种基于高斯溅射的可泛化稀疏视角表面重建框架。我们的核心思想是利用二维高斯溅射(2DGS)作为桥梁,将新视角合成与学习到的几何先验知识相连接,进而将这些先验知识转移以实现表面重建。具体而言,我们引入了一个前馈网络来预测每视角像素对齐的2DGS,这使得网络能够合成新视角图像,从而无需直接的三维真值监督。为提高2DGS位置和方向预测的准确性,我们提出了加权Chamfer距离损失来正则化深度图,特别是在输入视角的重叠区域,并引入了一个法线预测网络,使2DGS的方向与单目法线估计器预测的法向量对齐。大量实验验证了我们所提出改进的有效性,表明我们的方法在可泛化稀疏视角网格重建任务中达到了最先进的性能。项目页面:https://hanzhichang.github.io/meshsplat_web
组合视觉推理已成为多模态AI领域的关键研究前沿,旨在赋予机器类人的能力,使其能够分解视觉场景、锚定中间概念并执行多步逻辑推理。尽管早期的综述聚焦于单一视觉语言模型或通用多模态推理,但针对快速扩展的组合视觉推理文献的专门综合仍显缺失。我们通过一项涵盖2023至2025年的全面调查填补了这一空白,系统回顾了来自顶级会议(如CVPR、ICCV、NeurIPS、ICML、ACL等)的260余篇论文。首先,我们形式化了核心定义,并阐述了组合方法在认知对齐、语义保真度、鲁棒性、可解释性和数据效率方面的优势。接着,我们追溯了五个阶段的范式转变:从提示增强的语言中心管道,到工具增强的大语言模型(LLMs)和视觉语言模型(VLMs),再到近期兴起的思维链推理和统一代理VLMs,重点分析了它们的架构设计、优势与局限。随后,我们分类整理了60多个基准及其对应指标,这些指标从锚定准确性、思维链忠实度到高分辨率感知等多个维度考察组合视觉推理。基于这些分析,我们提炼出关键见解,识别出开放挑战(如基于LLM推理的局限性、幻觉问题、偏向演绎推理、可扩展监督、工具集成及基准限制),并展望了未来方向,包括世界模型整合、人机协作推理及更丰富的评估协议。通过提供一个统一的分类体系、历史路线图及批判性展望,本调查旨在成为基础性参考,并激发下一代组合视觉推理研究的灵感。
语音分词器作为语音语言模型的基础组件,当前设计存在若干局限,包括:1)依赖多层残差向量量化结构或高帧率,2)需要辅助预训练模型进行语义蒸馏,3)要求复杂的双阶段训练流程。本研究中,我们提出了文本感知扩散变换器语音编解码器(TaDiCodec),旨在克服这些挑战。TaDiCodec通过扩散自编码器实现量化与重建的端到端优化,并在扩散解码器中融入文本指导,以提升重建质量并实现最优压缩。TaDiCodec在24kHz语音上,采用单层码本实现了极低的6.25Hz帧率及相应的0.0875kbps比特率,同时在关键语音生成评估指标如词错误率(WER)、说话人相似度(SIM)和语音质量(UTMOS)上保持优异表现。值得注意的是,TaDiCodec采用单阶段、端到端的训练范式,无需依赖辅助预训练模型。我们还验证了TaDiCodec在基于语言模型的零样本文本转语音任务中,与自回归建模和掩码生成建模的兼容性,展示了其在语音语言建模中的有效性与高效性,以及极小的重建-生成差距。我们将开源代码及模型检查点。音频样本可在https://tadicodec.github.io/获取。代码与模型检查点发布于https://github.com/HeCheng0625/Diffusion-Speech-Tokenizer。
视觉引导的图像编辑,即编辑过程同时依赖于视觉线索和文本提示,已成为一种实现精细可控内容生成的强大范式。尽管近期生成模型展现出显著能力,但现有评估方法仍显简单,不足以充分反映实际编辑挑战。我们推出SpotEdit,这是一个旨在系统评估视觉引导图像编辑方法的综合基准,涵盖多种扩散模型、自回归模型及混合生成模型,揭示了显著的性能差异。针对一个关键但尚未充分探索的挑战,我们的基准特别包含了对幻觉现象的专门评估,揭示了如GPT-4o等领先模型常会幻觉视觉线索的存在并错误执行编辑任务。我们的代码与基准已公开发布于https://github.com/SaraGhazanfari/SpotEdit。
评估自然语言生成(NLG)系统依然是自然语言处理(NLP)领域的核心挑战,而旨在成为通用工具的大型语言模型(LLMs)的兴起更使这一挑战复杂化。近期,作为评判者的大型语言模型(LLJs)作为一种替代传统评估指标的有前景方案崭露头角,但其有效性仍待深入探究。本立场论文认为,当前对LLJs的热切追捧或许为时过早,因为其应用速度已超过对其作为评估者可靠性与有效性的严格审查。借鉴社会科学中的测量理论,我们识别并批判性地评估了使用LLJs所基于的四大核心假设:其作为人类判断代理的能力、作为评估者的胜任力、可扩展性以及成本效益。我们探讨了这些假设如何可能因LLMs、LLJs或当前NLG评估实践中的固有局限而受到挑战。为夯实分析基础,我们考察了LLJs在文本摘要、数据标注及安全对齐三个应用场景中的表现。最后,我们强调在LLJs评估中需采取更为负责任的评估实践,以确保其在该领域日益增长的作用能够支持而非阻碍NLG的进步。
跨不同复杂度层次进行文本改述的能力,对于创建可针对多样化读者群体定制的易读文本至关重要。为此,我们推出了German4All,这是首个大规模德语对齐可读性控制的段落级改述数据集。该数据集覆盖五个可读性等级,包含超过25,000个样本。数据集通过GPT-4自动合成,并经过严格的人工与基于大语言模型的评估。利用German4All,我们训练了一个开源的可读性控制改述模型,该模型在德语文本简化任务中达到了业界领先水平,实现了更为细致且针对特定读者的文本适配。我们公开了数据集与模型,以促进多层次改述领域的进一步研究。
本文深入探讨了注意力机制中归一化操作的局限性。我们首先构建了一个理论框架,该框架能够识别模型的选择能力以及涉及token选择的几何分离特性。我们的分析包括在softmax缩放下token向量距离和分离准则的明确界限。通过对预训练GPT-2模型的实验,我们实证验证了理论结果,并分析了注意力机制的关键行为。特别地,我们证明了随着所选token数量的增加,模型区分信息性token的能力下降,往往趋向于均匀选择模式。我们还展示了softmax归一化下的梯度敏感性在训练过程中,尤其是在低温设置下,带来了挑战。这些发现深化了当前对基于softmax的注意力机制的理解,并激励未来注意力架构中需要更鲁棒的归一化和选择策略。
超声心动图在心脏成像中占据核心地位,其提供的动态心脏视图对诊断和监测至关重要。然而,图像质量常因多路径混响产生的雾霾而显著下降,尤其是在难以成像的患者中。本研究针对MICCAI超声心动图去雾挑战赛(DehazingEcho2025),提出了一种基于语义引导的扩散去雾算法。该方法将源自模糊输入语义分割的逐像素噪声模型,整合到一个由清洁超声数据训练的生成先验引导的扩散后验采样框架中。在挑战数据集上的定量评估显示,该算法在对比度和保真度指标上均表现出色。提交算法的代码已发布于https://github.com/tristan-deep/semantic-diffusion-echo-dehazing。
在当代视频游戏中,逼真度是一个至关重要的因素,它不仅塑造了玩家的体验,还深刻影响着沉浸感、叙事参与度以及视觉保真度。尽管近期硬件技术的突破与尖端渲染技术显著提升了游戏的视觉真实感,但在动态环境中以实时帧率实现真正的照片级真实感仍面临重大挑战,这主要源于视觉质量与性能之间的权衡。在这篇短文中,我们提出了一种利用生成对抗网络增强渲染游戏帧照片级真实感的新方法。为此,我们引入了基于双阶段生成网络框架的实时游戏照片级真实感增强技术(REGEN),该框架采用了一种鲁棒的无配对图像到图像转换模型,以生成语义一致的照片级真实帧,从而将问题简化为一个更简单的配对图像到图像转换任务。这使得我们能够采用轻量级方法进行训练,在不牺牲视觉质量的前提下实现实时推理。我们在《侠盗猎车手V》上验证了该框架的有效性,结果显示,该方法在视觉效果上与鲁棒的无配对Im2Im方法相当,同时推理速度提升了32.14倍。我们的研究还表明,相较于直接训练轻量级无配对Im2Im转换方法将游戏帧转换为现实世界图像视觉特征所得到的照片级真实感增强帧,REGEN的结果更为出色。本工作的代码、预训练模型及演示可在以下网址获取:https://github.com/stefanos50/REGEN。
先前的研究表明,生成问题中的预设可能引入未经证实的假设,导致声明验证的不一致性。此外,提示敏感性仍然是大型语言模型(LLMs)面临的一个重大挑战,其性能差异高达3-6%。尽管近期的进展已缩小了这一差距,但我们的研究显示,提示敏感性依然是一个持续存在的问题。为解决这一问题,我们提出了一种结构化且稳健的声明验证框架,该框架通过无预设、分解式的问题进行推理。跨多种提示、数据集和LLMs的广泛实验表明,即使是最先进的模型也依然容易受到提示差异和预设的影响。我们的方法持续缓解了这些问题,实现了高达2-5%的性能提升。