每日精选AI研究论文及翻译
我们推出GLM-4.1V-Thinking,这是一款旨在推动通用多模态推理的视觉语言模型(VLM)。在本报告中,我们分享了在开发以推理为核心的训练框架过程中的关键发现。首先,通过大规模预训练,我们构建了一个具有显著潜力的视觉基础模型,这无疑为最终性能设定了上限。随后,采用课程采样强化学习(RLCS)充分释放了模型的潜力,实现了在STEM问题解决、视频理解、内容识别、编码、定位、基于GUI的代理以及长文档理解等多样化任务上的全面能力提升。为促进该领域的研究,我们开源了GLM-4.1V-9B-Thinking,该模型在同等规模模型中达到了顶尖性能。在涵盖28个公开基准的综合评估中,我们的模型在几乎所有任务上均优于Qwen2.5-VL-7B,并在18个基准上相对于规模显著更大的Qwen2.5-VL-72B取得了相当甚至更优的表现。值得注意的是,GLM-4.1V-9B-Thinking在长文档理解和STEM推理等挑战性任务上,与GPT-4o等闭源模型相比也展现出竞争力或更优性能,进一步凸显了其强大能力。代码、模型及更多信息发布于https://github.com/THUDM/GLM-4.1V-Thinking。
数学推理已成为大语言模型(LLMs)进步的标志,新模型在MATH和AIME等基准测试中迅速超越人类水平。然而,随着数学排行榜每周不断刷新,值得一问的是:这些提升反映的是更广泛的问题解决能力,还是仅仅局限于过拟合?为解答这一问题,我们评估了超过20个开放权重的推理调优模型,涵盖数学、科学问答、智能体规划、编码及标准指令遵循等广泛任务。令人惊讶的是,我们发现大多数在数学上表现优异的模型未能将其优势迁移至其他领域。为严谨研究这一现象,我们利用仅含数学数据的Qwen3-14B模型进行了控制实验,采用不同调优方法。结果表明,强化学习(RL)调优的模型在跨领域泛化上表现良好,而监督微调(SFT)调优的模型常遗忘通用能力。潜在空间表示与词元空间分布偏移分析揭示,SFT引发显著的表示与输出漂移,而RL则保留了通用领域结构。我们的研究结果提示,需重新审视标准的训练后优化策略,特别是依赖SFT蒸馏数据来推进推理模型的做法。
我们推出SciArena,一个开放协作的平台,旨在评估基础模型在科学文献任务上的表现。与传统的科学文献理解与综合基准不同,SciArena直接邀请研究社区参与,采用类似Chatbot Arena的社区投票模型比较评估方法。通过汇聚集体智慧,SciArena提供了一种社区驱动的评估方式,针对需要基于文献的长篇回答的开放式科学任务。该平台目前支持23个开源及专有的基础模型,并已收集来自不同科学领域可信研究者的超过13,000次投票。我们对已收集的数据进行分析,确认提交的问题具有多样性,与实际文献需求相符,且参与研究者在评估中展现出高度的自我一致性和标注者间一致性。我们基于模型排名榜单讨论结果与洞见。为进一步推动基于模型的文献任务自动化评估系统研究,我们发布了SciArena-Eval,这是一个基于我们收集的偏好数据的元评估基准。该基准通过比较模型的成对评估与人类投票,衡量模型在判断答案质量上的准确性。我们的实验揭示了基准的挑战,并强调了开发更可靠自动化评估方法的必要性。
基于因果视觉语言模型(VLMs)构建的多模态嵌入模型,已在多种任务中展现出潜力。然而,当前方法面临三大局限:VLM骨干网络中的因果注意力机制在嵌入任务中表现欠佳;依赖高质量标注配对数据进行对比学习带来的可扩展性问题;以及训练目标和数据多样性有限。为解决这些问题,我们提出了MoCa,一个两阶段框架,旨在将预训练的VLMs转化为高效的双向多模态嵌入模型。第一阶段,模态感知持续预训练,引入联合重建目标,同时去噪交错文本与图像输入,强化双向上下文感知推理能力。第二阶段,异构对比微调,利用超越简单图文对的多样的、语义丰富的多模态数据,以增强泛化与对齐效果。我们的方法通过持续预训练引入双向注意力机制,借助联合重建目标有效利用海量未标注数据进行扩展,并利用多样多模态数据提升表示鲁棒性,从而解决了上述局限。实验表明,MoCa在MMEB和ViDoRe-v2基准测试中持续提升性能,取得了新的最先进成果,并在MMEB上展现出与模型规模和训练数据同步的强扩展性。
近期扩散模型的进展已能实现高质量视频生成,但额外的时间维度显著增加了计算成本,使得长视频的训练和推理变得极其昂贵。本文中,我们发现了一种在视频扩散模型中称为“时空能量衰减”的现象:后softmax注意力分数随着token间空间和时间距离的增加而减弱,类似于自然界中信号或波在空间和时间上的物理衰减。受此启发,我们提出了径向注意力(Radial Attention),一种可扩展的稀疏注意力机制,其复杂度为O(n log n),将能量衰减转化为指数级递减的计算密度,相比标准的O(n^2)密集注意力显著更高效,且比线性注意力更具表现力。具体而言,径向注意力采用了一种简单、静态的注意力掩码,其中每个token仅关注空间上邻近的token,且注意力窗口大小随时间距离的增大而缩小。此外,它允许预训练的视频扩散模型通过高效的LoRA微调扩展其生成长度。大量实验表明,径向注意力在Wan2.1-14B、HunyuanVideo和Mochi 1上均保持了视频质量,相比原始密集注意力实现了最高1.9倍的加速。通过最小程度的调优,它能够生成长达4倍的视频,同时将训练成本降低至多4.4倍,相比密集注意力推理加速高达3.7倍。
扩散大语言模型(dLLMs)作为自回归(AR)模型的有力替代方案,因其去噪模型作用于整个序列而备受关注。dLLMs的全局规划与迭代优化特性在代码生成领域尤为突出。然而,当前针对代码生成的dLLMs训练与推理机制仍待深入探索。为揭示dLLMs的解码行为并释放其在编码中的潜力,我们系统性地研究了其去噪过程及强化学习(RL)方法。我们基于130B代码标记训练了一个7B参数的dLLM——DiffuCoder。以此模型为实验平台,我们分析了其解码行为,发现与AR模型相比的显著差异:(1)dLLMs无需依赖半自回归解码即可决定生成过程的因果性程度;(2)提高采样温度不仅丰富了词汇选择,还改变了生成顺序,这种多样性为RL探索提供了广阔的搜索空间。针对RL训练,为降低词汇对数似然估计的方差并保持训练效率,我们提出了耦合-GRPO,一种新颖的采样策略,通过构建互补的掩码噪声用于训练中的补全任务。实验表明,耦合-GRPO显著提升了DiffuCoder在代码生成基准上的表现(EvalPlus上提升+4.4%),并减少了解码过程中对AR因果性的依赖。本研究深入剖析了dLLM生成的内部机制,并提供了一个高效、原生于扩散模型的RL训练框架。https://github.com/apple/ml-diffucoder。
机器能否真正像人类一样思考、推理并在各个领域中行动?这一持久的问题持续塑造着对人工通用智能(AGI)的追求。尽管诸如GPT-4.5、DeepSeek、Claude 3.5 Sonnet、Phi-4和Grok 3等模型展现出多模态流畅性和部分推理能力,但这些系统本质上仍受限于其基于令牌级别的预测和对实体代理的缺乏。本文提供了一个跨学科的AGI发展综述,涵盖人工智能、认知神经科学、心理学、生成模型和基于代理的系统。我们分析了通用智能的架构和认知基础,强调了模块化推理、持久记忆和多代理协调的作用。特别是,我们强调了结合检索、规划和动态工具使用的Agentic RAG框架的兴起,以实现更具适应性的行为。我们讨论了泛化策略,包括信息压缩、测试时适应和无训练方法,作为通向灵活、领域无关智能的关键路径。视觉-语言模型(VLMs)被重新审视,不仅作为感知模块,更是作为具身理解和协作任务完成的演进接口。我们还提出,真正的智能不仅源于规模,更源于记忆与推理的整合:一个由模块化、互动和自我改进组件组成的协调系统,其中压缩促成了适应性行为。借鉴神经符号系统、强化学习和认知支架的进展,我们探讨了近期架构如何开始弥合统计学习与目标导向认知之间的差距。最后,我们指出了通往AGI道路上的关键科学、技术和伦理挑战。
随着多模态大语言模型的快速发展,深入理解和解读人类意图的能力已成为一项关键技能,这需要细致周密的推理。近期研究表明,强化学习(RL)在提升大语言模型(LLMs)的推理能力方面展现出潜力。然而,将RL应用于多模态数据及格式的挑战在很大程度上仍未得到解决。本文中,我们指出了现有多模态推理模型中的两个问题:全局上下文理解不足和捷径问题。全局上下文理解不足可能发生在模型误解多模态上下文时,导致错误答案。捷径问题则出现在模型忽视多模态输入中的关键线索,直接回应查询而忽略多模态信息。为解决这些问题,我们强调模型需在多模态输入中清晰理解全局上下文进行推理的重要性。这种全局上下文理解能有效防止模型遗漏关键多模态线索,确保推理过程的全面性。为确保准确解读多模态上下文信息,我们实施了一项由大语言模型评判的上下文奖励,以及格式和准确性奖励。此外,为提升复杂推理能力,我们利用LLM评估逻辑奖励,判断推理过程是否成功地将多模态信息与逻辑方法相结合。我们还引入了推理全模态基准IntentBench,旨在评估模型在理解复杂人类意图和情感方面的表现。相较于其他开源全模态模型,我们提出的方法在多个全模态基准测试中展现了卓越性能。
非模态分割与非模态内容补全需要利用物体先验知识来估计复杂场景中被遮挡物体的掩码与特征。迄今为止,尚无数据为物体上下文提供额外维度:即多台摄像机共享同一场景视角的可能性。我们推出了MOVi-MC-AC:多摄像机多物体视频与非模态内容数据集,这是迄今为止规模最大的非模态分割及首个非模态内容数据集。该数据集通过多摄像机视频模拟了家庭通用物品的杂乱场景。MOVi-MC-AC在计算机视觉深度学习领域做出了两项新贡献,丰富了物体检测、追踪与分割的研究文献。多摄像机(MC)设置中,物体能在不同独特摄像机视角间被识别与追踪,这在合成视频与现实世界视频中均属罕见。我们通过为单一场景中具有独特特征与运动模式的多摄像机间帧与帧的检测与分割提供一致的物体ID,为合成视频引入了新的复杂性。非模态内容(AC)是一项重建任务,模型需预测目标物体在遮挡下的外观。在非模态分割文献中,已有部分数据集发布了非模态检测、追踪与分割标签。而其他方法依赖缓慢的剪切粘贴方案生成非模态内容伪标签,却未考虑模态掩码中存在的自然遮挡。MOVi-MC-AC为约580万个物体实例提供了标签,创下了非模态数据集文献的新高,并首次提供了真实非模态内容的基准。完整数据集可在https://huggingface.co/datasets/Amar-S/MOVi-MC-AC获取。
多模态大语言模型(MLLMs)在自然图像、富含文本的文档及平面设计等领域展现出了卓越的视觉推理能力。然而,其在乐谱解读方面的潜力尚未得到充分挖掘。为填补这一空白,我们推出了MusiXQA,这是首个旨在评估并推动MLLMs在乐谱理解领域发展的综合性数据集。MusiXQA包含通过MusiXTeX生成的高质量合成乐谱,并配有结构化标注,涵盖音符音高与时长、和弦、谱号、调号/拍号及文本信息,支持多样化的视觉问答任务。经过广泛评估,我们揭示了当前顶尖MLLMs在此领域的显著局限。除基准测试外,我们还开发了Phi-3-MusiX,这是一个基于我们数据集微调的MLLM,相较于基于GPT的方法实现了显著的性能提升。所提出的数据集与模型为未来MLLMs在乐谱理解方面的进步奠定了基石。代码、数据及模型将在论文被接受后公开发布。
数据是语言模型(LM)训练的基础。近期研究致力于数据效率,旨在通过选择最小或最优的训练数据子集来最大化性能。数据过滤、采样和选择等技术在这一领域发挥着关键作用。作为补充,我们定义了数据效能,其重点在于通过优化训练数据的组织来最大化性能,这一领域相对尚未充分探索。本文引入了一个通用范式DELT,用于在LM训练中考虑数据效能,强调了训练数据组织的重要性。DELT包含三个组成部分:数据评分、数据选择和数据排序。在这些组成部分中,我们设计了可学习性-质量评分(LQS),作为数据评分的一个新实例,它从梯度一致性的角度考虑了每个数据样本的可学习性和质量。我们还设计了折叠排序(FO),作为数据排序的一个新颖实例,解决了模型遗忘和数据分布偏差等问题。全面的实验验证了数据效能在LM训练中的有效性,展示了以下结果:首先,所提出的DELT的各种实例在不增加数据规模和模型大小的情况下,不同程度地提升了LM性能。其次,在这些实例中,我们提出的用于数据评分的LQS与用于数据排序的Folding相结合,实现了最显著的改进。最后,通过应用数据选择,数据效能可以与数据效率同时实现。因此,我们相信数据效能是LM训练中一个具有前景的基础领域。
近期视频生成模型的发展已实现了基于文本提示的高质量短视频生成。然而,将这些模型扩展到生成长视频仍面临重大挑战,主要原因是时间一致性和视觉保真度的下降。我们的初步观察表明,简单地将短视频生成模型应用于长序列会导致明显的质量退化。进一步分析揭示了一个系统性趋势:随着视频长度的增加,高频成分逐渐失真,这一问题我们称之为高频失真。为解决此问题,我们提出了FreeLong,一种无需训练的框架,旨在去噪过程中平衡长视频特征的频率分布。FreeLong通过融合全局低频特征(捕捉整个视频的整体语义)与从短时间窗口提取的局部高频特征,以保留细节。在此基础上,FreeLong++将FreeLong的双分支设计扩展为多分支架构,每个分支在不同的时间尺度上运行。通过从全局到局部安排多个窗口大小,FreeLong++实现了从低频到高频的多频带融合,确保了长视频序列中的语义连续性和精细运动动态。无需额外训练,FreeLong++即可插入现有视频生成模型(如Wan2.1和LTX-Video)中,生成时间一致性和视觉保真度显著提升的长视频。我们证明,在长视频生成任务(如原生长度的4倍和8倍)上,我们的方法优于以往技术。此外,它还支持连贯的多提示视频生成,实现平滑场景过渡,并允许使用长深度或姿态序列进行可控视频生成。
视觉-语言模型(VLMs)在描述性任务上表现出色,但其是否真正理解视觉观察中的场景仍存疑问。我们引入了IR3D-Bench,这一基准测试挑战VLMs通过主动创造而非被动识别来展示理解能力。基于“合成分析”范式,IR3D-Bench要求视觉-语言代理(VLAs)积极运用编程与渲染工具,重构输入图像背后的三维结构,通过工具使用实现代理逆向渲染。这种“通过创造来理解”的方法探究了VLAs利用工具的生成能力,超越了传统场景理解基准所衡量的描述或对话能力。我们提供了一套全面的评估指标,涵盖几何精度、空间关系、外观属性及整体合理性。基于多种前沿VLMs的代理逆向渲染初步实验揭示了当前局限,特别是在视觉精度而非基础工具使用方面。IR3D-Bench,包括数据与评估协议,已公开发布,旨在促进对工具使用型VLAs的系统性研究与发展,通过创造实现真正的场景理解。
欧盟执法机构的一份报告预测,到2026年,高达90%的在线内容可能由合成生成,这一趋势引发了政策制定者的担忧。他们警告称,“生成式AI可能成为政治虚假信息的倍增器。生成文本、图像、视频和音频的综合效应,可能超越任何单一模态的影响力。”对此,加利福尼亚州的AB 3211法案要求对AI生成的图像、视频和音频进行水印标记。然而,人们仍担忧隐形水印技术易受篡改,以及恶意行为者可能完全绕过这些水印。特别是新引入的视觉转述攻击,生成式AI驱动的去水印攻击已展现出完全去除水印的能力,导致原始图像的转述。本文介绍了PECCAVI,首个能抵御视觉转述攻击且无失真的图像水印技术。在视觉转述攻击中,图像被修改的同时保留了其核心语义区域,称为非融化点(NMPs)。PECCAVI策略性地将水印嵌入这些NMPs中,并采用多通道频域水印技术。它还引入了噪声打磨,以对抗旨在定位NMPs以破坏嵌入水印的反向工程努力,从而增强耐久性。PECCAVI与模型无关。所有相关资源和代码将开源。
大型语言模型(LLMs)通过诸如思维链(CoT)和思维树(ToT)等先进的提示技术,在复杂任务中表现出色,但其对人工定制、任务特定提示的依赖限制了适应性和效率。我们引入了混合推理(MoR),这是一种训练框架,将多样化的推理策略嵌入LLMs中,实现自主、任务自适应的推理,无需外部提示工程。MoR包含两个阶段:思维生成,利用如GPT-4o等模型创建推理链模板;以及监督微调数据集构建,将模板与基准数据集配对进行监督微调。实验表明,MoR显著提升了性能,其中MoR150在使用CoT提示时达到0.730(提升2.2%),与基线相比达到0.734(提升13.5%)。MoR消除了对任务特定提示的需求,为跨多样任务的稳健推理提供了一个可推广的解决方案。
我们推出Ella,一个能够在3D开放世界中通过终身学习与社区互动的具身社交智能体。Ella通过日常视觉观察和社交互动积累经验、获取知识。其核心能力在于一个结构化的长期多模态记忆系统,该系统高效地存储、更新和检索信息。该系统由以名称为中心的语义记忆(用于组织获取的知识)和时空情景记忆(用于捕捉多模态体验)组成。通过将这一终身记忆系统与基础模型相结合,Ella能够检索相关信息以进行决策、规划日常活动、建立社交关系,并在与开放世界中其他智能体共存的同时自主进化。我们在一个动态的3D开放世界中进行能力导向的评估,15个智能体在此进行多日社交活动,并通过一系列未见过的控制性测试进行评估。实验结果表明,Ella能够有效地影响、领导并与其他智能体合作达成目标,展现了其通过观察和社交互动高效学习的能力。我们的研究结果突显了将结构化记忆系统与基础模型相结合在推进具身智能方面的变革潜力。更多视频请访问https://umass-embodied-agi.github.io/Ella/。
精确的材料建模对于实现逼真渲染至关重要,它弥合了计算机生成图像与真实世界照片之间的差距。传统方法依赖于表格化的双向反射分布函数(BRDF)数据,而近期研究则转向了隐式神经表示,为多种任务提供了紧凑且灵活的框架。然而,这些方法在频域中的行为仍鲜为人知。为此,我们提出了FreNBRDF,一种频率校正的神经材料表示方法。通过利用球谐函数,我们将频域考量融入神经BRDF建模中。我们提出了一种新颖的频率校正损失函数,该函数源自对神经材料的频率分析,并将其整合到一个可泛化且自适应的重建与编辑流程中。这一框架提升了保真度、适应性和效率。大量实验表明,与现有最先进的基线方法相比,\ours显著提高了材料外观重建与编辑的准确性和鲁棒性,使得下游任务和应用更加结构化和可解释。
三维高斯溅射技术虽能实现高质量的实时渲染,但常生成数百万个溅射点,导致存储与计算开销过大。我们提出了一种基于可学习置信度评分的新型有损压缩方法,该评分以Beta分布建模。通过重建感知的损失函数优化每个溅射点的置信度,从而在保持视觉保真度的同时,剔除低置信度的溅射点。所提方法架构无关,可应用于任何高斯溅射变体。此外,平均置信度值可作为评估场景质量的新指标。大量实验表明,与先前工作相比,该方法在压缩与保真度之间取得了更优的权衡。我们的代码与数据已公开于https://github.com/amirhossein-razlighi/Confident-Splatting。