每日精选AI研究论文及翻译
大型语言模型(LLM)能力的显著提升,推动了多智能体系统的探索,其中辩论框架作为一种增强问题解决能力的有前景途径应运而生。这些多智能体辩论(MAD)方法,通过智能体协作提出、批评并精炼论点,相较于单一模型,可能提供更优的推理能力、鲁棒性及多样化的视角。尽管先前研究已利用MAD,但其与单智能体方法相比的有效性,尤其是在不同条件下的系统性理解,仍显不足。本文旨在填补这一空白,将MAD概念化为一种测试时计算扩展技术,以其协作精炼与多样化探索能力为特色。我们开展了一项全面的实证研究,在数学推理与安全相关任务上,将MAD与强大的单智能体测试时扩展基线进行比较。研究系统地考察了任务难度、模型规模及智能体多样性对MAD性能的影响。关键发现表明,在数学推理方面,MAD相较于单智能体扩展优势有限,但随着问题难度增加和模型能力下降,其效果更为显著,而智能体多样性带来的益处微乎其微。相反,在安全任务中,MAD的协作精炼可能增加脆弱性,但引入多样化的智能体配置,通过协作精炼过程逐步降低攻击成功率。我们相信,这些发现为未来开发更有效、策略性部署的MAD系统提供了关键指导。
现有的推理分割方法通常通过图像-文本对及相应的掩码标签对多模态大语言模型(MLLMs)进行微调。然而,这些方法在缺乏明确推理过程的情况下,对分布外场景的泛化能力有限。尽管近期研究通过群体相对策略优化(GRPO)利用强化学习来提升推理能力,但它们常陷入过度思考的困境——无论任务复杂度如何,均生成冗长的推理链条。这导致了计算成本的增加和对推理质量控制的不足。为解决这一问题,我们提出了PixelThink,一种简洁而有效的方案,它结合外部估计的任务难度与内部度量的模型不确定性,在强化学习框架内调控推理生成。该模型学会根据场景复杂度和预测置信度压缩推理长度。为支持全面评估,我们引入了ReasonSeg-Diff,一个扩展的基准测试集,包含标注的推理参考和难度评分,以及一套旨在同时评估分割准确性、推理质量和效率的指标。实验结果表明,所提方法在提升推理效率的同时,也改善了整体分割性能。我们的工作为高效且可解释的多模态理解提供了新颖视角。代码和模型将公开提供。
在本研究中,我们首次探讨了在表格推理任务上的推理时扩展方法。我们开发并评估了两种后训练策略以实现推理时扩展:基于前沿模型推理轨迹的蒸馏和带有可验证奖励的强化学习(RLVR)。对于蒸馏方法,我们引入了一个由DeepSeek-R1生成的大规模推理轨迹数据集,并利用其将大型语言模型(LLMs)微调为Table-R1-SFT模型。在RLVR方面,我们提出了任务特定的可验证奖励函数,并应用GRPO算法训练出Table-R1-Zero模型。我们对Table-R1系列模型在多种表格推理任务上进行了评估,包括简短问答、事实核查和自由形式问答。值得注意的是,Table-R1-Zero模型在仅使用7B参数的大型语言模型的情况下,其性能与GPT-4.1和DeepSeek-R1相当甚至更优。此外,该模型在跨领域数据集上也展现出了强大的泛化能力。通过广泛的消融实验和定性分析,我们揭示了指令微调、模型架构选择以及跨任务泛化的优势,以及在强化学习训练过程中涌现出的关键表格推理技能。
近期,多模态大语言模型(MLLMs)的进展显著提升了其在二维视觉任务上的表现。然而,提升其空间智能仍面临挑战。现有的三维MLLMs通常依赖额外的三维或2.5维数据来融入空间感知,这限制了它们在仅具备二维输入(如图像或视频)场景下的应用。本文提出了一种新颖的框架——Spatial-MLLM,它能够基于纯二维观测进行视觉驱动的空间推理。与依赖CLIP视觉编码器(专为语义理解优化)的传统视频MLLMs不同,我们的核心洞见在于释放前馈视觉几何基础模型中的强大结构先验。具体而言,我们设计了一种双编码器架构:一个预训练的二维视觉编码器用于提取语义特征,以及一个从视觉几何模型主干初始化的空间编码器,用于提取三维结构特征。随后,一个连接器将这两种特征整合为统一的视觉标记,以增强空间理解。此外,我们在推理阶段提出了一种空间感知的帧采样策略,该策略从视频序列中筛选出富含空间信息的帧,确保即使在标记长度有限的情况下,模型也能聚焦于对空间推理至关重要的帧。除了架构上的改进,我们还构建了Spatial-MLLM-120k数据集,并通过监督微调和GRPO方法对模型进行训练。在多个真实世界数据集上的广泛实验表明,我们的Spatial-MLLM在多种视觉驱动的空间理解与推理任务中均达到了最先进的性能。项目页面:https://diankun-wu.github.io/Spatial-MLLM/。
近期关于通过强化学习(RL)对大型语言模型(LLMs)进行推理后训练的研究,通常集中于那些能够被准确验证和奖励的任务,如解决数学问题。相比之下,我们的研究探讨了奖励噪声的影响,这是在实际场景中利用奖励模型对LLMs进行后训练时更为实用的考量。我们发现,LLMs对显著的奖励噪声表现出极强的鲁棒性。例如,在数学任务中手动翻转40%的奖励函数输出,仍能使Qwen-2.5-7B模型快速收敛,其数学任务表现从5%提升至72%,而使用无噪声奖励训练的模型准确率为75%。令人惊讶的是,仅通过奖励关键推理短语的出现(即推理模式奖励,RPR),如“首先,我需要”——而不验证答案的正确性,模型便达到了与严格正确验证和精确奖励训练模型相当的峰值下游性能(Qwen-2.5-7B超过70%的准确率)。认识到推理过程比最终结果更为重要,我们将RPR与噪声奖励模型结合。RPR帮助校准了噪声奖励模型,减少了潜在的假阴性,并提升了LLM在开放式任务上的表现。这些发现强调了在预训练阶段提升模型基础能力的重要性,同时为推进后训练技术提供了洞见。我们的代码和脚本可在https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason获取。
近期,多模态大语言模型(MLLMs)在视频问答领域得到了广泛研究。然而,现有评估大多聚焦于自然视频,忽视了如AI生成内容(AIGC)等合成视频。同时,尽管部分视频生成工作依赖MLLMs来评估生成视频的质量,但MLLMs在解析AIGC视频方面的能力仍鲜有深入探讨。为此,我们提出了一个新基准——VF-Eval,通过引入四项任务——连贯性验证、错误识别、错误类型检测及推理评估——来全面评估MLLMs在AIGC视频上的表现。我们在VF-Eval上测试了13个前沿MLLMs,发现即便是表现最佳的GPT-4.1模型,也难以在所有任务中持续保持优异表现,这凸显了我们基准的挑战性。此外,为探索VF-Eval在提升视频生成实际应用中的价值,我们进行了RePrompt实验,证明使MLLMs更贴近人类反馈有助于优化视频生成。
大型视觉-语言模型(VLMs)的快速发展推动了纯视觉GUI代理的进步,这些代理能够感知并操作图形用户界面(GUI),以自主完成用户指令。然而,现有方法通常采用离线学习框架,面临两个核心限制:(1)高度依赖高质量的手动标注进行元素定位和动作监督,(2)对动态交互环境的适应性有限。为解决这些问题,我们提出了ZeroGUI,一种可扩展的在线学习框架,用于在零人力成本下自动化GUI代理训练。具体而言,ZeroGUI整合了:(i)基于VLM的自动任务生成,从当前环境状态中产生多样化的训练目标;(ii)基于VLM的自动奖励评估,无需手工设计评价函数即可判断任务成功与否;(iii)两阶段在线强化学习,持续与GUI环境交互并从中学习。在两种先进GUI代理(UI-TARS和Aguvis)上的实验表明,ZeroGUI在OSWorld和AndroidLab环境中显著提升了性能。代码已发布于https://github.com/OpenGVLab/ZeroGUI。
基于扩散的大型语言模型(Diffusion LLMs)在非自回归文本生成及并行解码能力方面展现出潜力。然而,开源Diffusion LLMs的实际推理速度往往落后于自回归模型,这主要归因于缺乏键值(KV)缓存机制以及同时解码多个令牌时出现的质量下降问题。为弥合这一差距,我们引入了一种专为双向扩散模型设计的新型块级近似KV缓存机制,该机制在几乎不损失性能的前提下实现了缓存复用。此外,我们揭示了并行解码中生成质量下降的根本原因在于条件独立假设下令牌依赖关系的破坏。针对此问题,我们提出了一种置信度感知的并行解码策略,该策略选择性地解码超过置信度阈值的令牌,从而缓解依赖关系违反并保持生成质量。在LLaDA和Dream模型上的多项LLM基准测试表明,该方法实现了高达27.6倍的吞吐量提升,且精度损失微乎其微,显著缩小了与自回归模型的性能差距,为Diffusion LLMs的实际部署铺平了道路。
近期研究表明,长链思维推理(CoT)能显著提升大型语言模型(LLMs)在复杂任务上的表现。然而,这一优势尚未在视频理解领域得到验证,因为现有的大多数基准测试缺乏展示扩展CoT链优势所需的推理深度。尽管近期有研究提出了旨在视频推理的基准测试,但这些任务往往以知识驱动,并不高度依赖视觉内容。为填补这一空白,我们引入了VideoReasonBench,一个专为评估以视觉为中心、复杂视频推理而设计的基准测试。为确保视觉丰富性和高推理复杂度,VideoReasonBench中的每段视频都展示了对仅在视频部分可见的潜在状态进行的一系列细粒度操作。问题评估了三个递进的视频推理技能层级:回忆观察到的视觉信息、推断潜在状态内容以及预测视频之外的信息。在此任务设置下,模型必须精确回忆视频中的多个操作,并通过逐步推理来获得这些问题的正确答案。利用VideoReasonBench,我们全面评估了18个最先进的多模态LLMs(MLLMs),发现大多数在复杂视频推理上表现不佳,例如GPT-4o仅达到6.9%的准确率,而思维增强的Gemini-2.5-Pro以56.0%的准确率显著优于其他模型。我们对“测试时扩展”的进一步研究表明,在现有视频基准测试上几乎没有或仅有微小益处的扩展思维预算,对于提升VideoReasonBench上的性能至关重要。
计算机辅助设计(CAD)在工程与制造领域占据核心地位,使得创建精确且可编辑的三维模型成为可能。利用多种传感器或用户提供的数据作为CAD重建的输入,能够普及设计应用的使用。然而,现有方法通常仅聚焦于单一输入模态,如点云、图像或文本,这限制了其通用性和鲁棒性。借助视觉-语言模型(VLM)的最新进展,我们提出了一种多模态CAD重建模型,能够同时处理上述三种输入模态。受大型语言模型(LLM)训练范式的启发,我们采用了两阶段流程:首先在大规模程序生成的数据上进行监督微调(SFT),随后利用程序化获取的在线反馈进行强化学习(RL)微调。此外,我们首次探索了将LLM通过RL微调应用于CAD任务,证明了如群体相对偏好优化(GRPO)等在线RL算法优于离线替代方案。在DeepCAD基准测试中,我们的SFT模型在所有三种输入模态上均超越了现有的单模态方法。更重要的是,经过RL微调后,cadrille在包括一个真实世界数据集在内的三个具有挑战性的数据集上,均创下了新的技术标杆。
本文提出了一种基于自回归模型的扩散方法(D-AR),这一新范式将图像扩散过程重新定义为标准的下一令牌预测式自回归流程。我们首先设计了将图像转换为离散令牌序列的编码器,其中不同位置的令牌可解码为像素空间中不同的扩散去噪步骤。得益于扩散特性,这些令牌自然遵循从粗到细的顺序,这直接适用于自回归建模。因此,我们在这些令牌上应用标准的下一令牌预测,无需修改任何底层设计(无论是因果掩码还是训练/推理策略),这种序列化的自回归令牌生成直接映射了图像空间中的扩散过程。即,一旦自回归模型生成了一组增量令牌,我们就能以流式方式直接将这些令牌解码为相应的扩散去噪步骤。我们的流程自然揭示了几项有趣特性,例如,在仅生成部分令牌时支持一致的预览,并实现零样本布局控制合成。在标准的ImageNet基准测试中,我们的方法使用包含256个离散令牌的775M Llama骨干网络,取得了2.09的FID分数。我们希望这项工作能激发未来关于视觉合成的统一自回归架构研究,特别是结合大规模语言模型。代码和模型将发布于https://github.com/showlab/D-AR。
我们推出了AnySplat,一种用于从未校准图像集合中合成新视角的前馈网络。不同于传统神经渲染流程要求已知相机姿态及针对每个场景进行优化,或近期前馈方法因密集视图计算负担而受限,我们的模型一次性预测所有信息。仅需一次前向传播,即可生成一组3D高斯基元,既编码场景几何与外观,又为每张输入图像提供相应的相机内参和外参。这一统一设计轻松适应于无姿态标注、随意采集的多视角数据集。在广泛的零样本评估中,AnySplat在稀疏与密集视图场景下均达到姿态感知基线的质量,同时超越现有无姿态方法。此外,相比基于优化的神经场,它大幅降低了渲染延迟,使得无约束拍摄环境下的实时新视角合成成为可能。项目页面:https://city-super.github.io/anysplat/
近期发展的大型推理模型(LRMs)在解决复杂任务时展现出强大的性能,尤其具备长链思维(CoT)推理能力。由于这些LRM大多通过对正式推理任务进行后训练而开发,它们是否能够将推理能力泛化以帮助减少事实寻求任务中的幻觉现象,仍不明确且存在争议。例如,DeepSeek-R1报告在事实寻求基准SimpleQA上性能提升,而OpenAI-o3则观察到更严重的幻觉。这种差异自然引出了以下研究问题:推理模型是否更容易产生幻觉?本文从三个角度探讨了这一问题。(1)我们首先对LRM中的幻觉进行了全面评估。分析表明,采用完整后训练流程(包括冷启动监督微调(SFT)和可验证奖励强化学习(RL))的LRM通常能减轻其幻觉。相比之下,仅使用蒸馏或未进行冷启动微调的RL训练会引入更细微的幻觉。(2)为了探究不同后训练流程如何改变LRM中幻觉的影响,我们进行了行为分析。我们刻画了直接影响LRM事实性的两种关键认知行为:缺陷重复,即表面推理尝试反复遵循相同的潜在错误逻辑;以及思维-答案不匹配,即最终答案未能忠实反映先前的CoT过程。(3)进一步,我们从模型不确定性的角度研究了LRM幻觉背后的机制。我们发现,LRM幻觉的增加通常与模型不确定性和事实准确性之间的错位有关。我们的工作为理解LRM中的幻觉提供了初步见解。
语言模型(LMs)在标准化编码基准测试中表现出色,但在处理现实世界的软件工程任务时却面临挑战,例如解决SWE-Bench中的GitHub问题,尤其是在模型参数少于100B的情况下。虽然在实际应用中,较小的模型因其较低的计算成本更受青睐,但提升其性能仍具挑战性。现有方法主要依赖于使用高质量数据进行监督微调(SFT),而大规模获取此类数据成本高昂。另一种方法是测试时扩展:生成多个输出,通过验证器评分,并选择最佳结果。尽管有效,但该策略通常需要大量采样和昂贵的评分,限制了其实际应用。我们提出了进化测试时扩展(EvoScale),这是一种样本高效的方法,将生成视为一个进化过程。通过选择和变异迭代优化输出,EvoScale将输出分布向高分区域转移,减少了找到正确解决方案所需的样本数量。为了减少重复采样和选择的开销,我们利用强化学习(RL)训练模型自我进化。在推理时,模型不再依赖外部验证器,而是学会在迭代过程中自我提升其生成结果的评分。在SWE-Bench-Verified上的评估显示,EvoScale使我们的32B模型Satori-SWE-32B在仅使用少量样本的情况下,性能匹配甚至超越了参数超过100B的模型。代码、数据和模型将完全开源。
我们推出LoRAShop,这是首个利用LoRA模型进行多概念图像编辑的框架。LoRAShop基于对Flux风格扩散变换器内部特征交互模式的关键观察:在去噪过程的早期阶段,特定概念的变换器特征会激活空间上连贯的区域。我们利用这一观察,在先前的前向传递中为每个概念推导出解耦的潜在掩码,并仅在待个性化概念所限定的区域内融合相应的LoRA权重。由此产生的编辑结果,能够将多个主题或风格无缝融入原始场景,同时保持全局上下文、光照及精细细节的完整。实验表明,相较于基线方法,LoRAShop在身份保持方面表现更优。通过省去重新训练和外部约束,LoRAShop将个性化扩散模型转变为实用的“LoRA版Photoshop”工具,为组合式视觉叙事和快速创意迭代开辟了新路径。
Transformer已被确立为序列建模中最受欢迎的骨干网络,主要得益于其在上下文检索任务中的高效表现以及大规模学习的能力。然而,其二次方的内存和时间复杂度限制了其在长序列中的应用,这促使研究人员探索有效的替代架构,如现代循环神经网络(又称长期循环记忆模块)。尽管这些网络在多种下游任务中取得了成功,但在需要长上下文理解及向更长序列外推的任务中仍显不足。我们观察到,这些不足源于其设计中的三个独立方面:(1) 受限于内存架构和输入特征映射的有限内存容量;(2) 更新的在线性质,即仅基于最新输入优化内存;以及 (3) 对固定大小内存的表达管理不足。为了增强这三个方面,我们提出了ATLAS,一个高容量的长期记忆模块,它通过基于当前及过去令牌优化内存来学习记忆上下文,从而克服了长期记忆模型的在线性。基于这一洞见,我们提出了一类新的类Transformer架构,称为DeepTransformers,它们是对原始Transformer架构的严格泛化。我们在语言建模、常识推理、召回密集型及长上下文理解任务上的实验结果表明,ATLAS超越了Transformer及近期线性循环模型的性能。ATLAS进一步提升了Titans在长上下文中的表现,在BABILong基准测试的1000万上下文长度上实现了+80%的准确率提升。
诸如Show-o和Janus等统一多模态大语言模型在生成与理解任务上均展现出了卓越的性能。然而,这些模型通常依赖于大规模数据集,并在预训练阶段需要大量计算资源。此外,虽然已有多种后训练方法被提出,但它们往往依赖于外部数据或仅限于特定任务的定制。在本研究中,我们引入了UniRL,一种自我提升的后训练方法。该方法使模型能够从提示生成图像,并在每次迭代中将这些图像作为训练数据,无需依赖任何外部图像数据。更重要的是,它实现了两项任务的相互促进:生成的图像用于理解任务,而理解结果则用于指导生成。我们探索了监督微调(SFT)和组相对策略优化(GRPO)来优化模型。UniRL具备三大优势:(1)无需外部图像数据,所有训练样本均由模型在训练过程中自行生成;(2)不仅提升了个别任务的性能,还减少了生成与理解之间的不平衡;(3)在后训练阶段仅需少量额外训练步骤。我们在Show-o和Janus基础上评估了UniRL,分别获得了0.77和0.65的GenEval评分。代码与模型将在https://github.com/showlab/UniRL发布。
解决实际问题的任务,即模型生成补丁以修复现实世界中的错误,已成为评估大型语言模型(LLMs)能力的关键基准。尽管SWE-bench及其变体在该领域已成为标准,但它们存在关键局限性:自初始发布以来未进行更新,覆盖的代码库范围狭窄,且在实例构建和环境设置上高度依赖人工操作。这些因素阻碍了可扩展性,并引入了过拟合和数据污染的风险。在本研究中,我们提出了SWE-bench-Live,一个旨在克服这些挑战的实时可更新基准。我们的初始版本包含1,319个任务,源自2024年以来在GitHub上创建的真实问题,覆盖了93个代码库。每个任务均配备专用Docker镜像,以确保可重复执行。我们基准的核心是\method,一个自动化管理流程,它简化了从实例创建到环境设置的整个过程,消除了人工瓶颈,实现了可扩展性和持续更新。我们在SWE-bench-Live上评估了一系列最先进的代理框架和LLMs,揭示了与静态基准如SWE-bench相比,即使在受控评估条件下,性能差距依然显著。为了深入理解这一差异,我们从代码库来源、问题时效性和任务难度等多个维度进行了详细分析。通过提供一个基于活跃代码库活动的新颖、多样且可执行的基准,SWE-bench-Live促进了在动态、现实世界的软件开发环境中对LLMs和代理进行严格、抗污染的评估。
稀疏自编码器(SAEs)在解析语言模型隐藏状态方面展现出显著潜力,通过将其分解为可解释的潜在方向。然而,大规模训练SAEs仍面临挑战,尤其是在使用大词典规模时。尽管解码器可利用稀疏感知内核提升效率,但编码器仍需执行计算密集型的线性运算,且输出维度庞大。为此,我们提出了KronSAE,一种通过克罗内克积分解因子化潜在表示的新架构,大幅降低了内存和计算开销。此外,我们引入了mAND,一种近似二进制AND操作的可微分激活函数,进一步提升了因子化框架下的可解释性和性能。
偏好机制,如人类偏好、作为评判者的大型语言模型(LLM-as-a-Judge, LaaJ)及奖励模型,对于大型语言模型(LLMs)的对齐与评估至关重要。然而,驱动这些偏好的根本概念仍鲜为人知。本研究提出了一种全自动方法,用于生成跨多个领域的局部与全局基于概念的解释。该方法利用LLM识别区分选定与拒绝响应的概念,并通过基于概念的向量进行表征。为建模概念与偏好间的关系,我们提出了一种白盒层次化多领域回归模型,该模型能够捕捉领域通用与领域特定的效应。为评估此方法,我们构建了一个涵盖八个具有挑战性且多样化领域的数据集,并解释了十二种机制。我们的方法在偏好预测性能上表现优异,不仅超越了基线模型,还具备良好的可解释性。此外,我们在两个应用导向的场景下评估了这些解释。首先,利用LaaJ解释中的概念指导LLM输出,产生的响应持续获得评判者的青睐。其次,向LaaJ提供解释人类偏好的概念提示,提升了其偏好预测的准确性。综上所述,我们的工作为LLM时代的可解释性研究确立了新范式。
视频中嵌入的视觉文本承载着丰富的语义信息,这对于整体视频理解以及局部人类行为的细粒度推理都至关重要。然而,现有的视频理解基准数据集大多忽视了文本信息,而专注于OCR的基准数据集又仅限于静态图像,这限制了它们捕捉文本与动态视觉环境之间交互的能力。为填补这一空白,我们提出了VidText,一个旨在全面深入评估视频文本理解的新基准。VidText具备以下关键特点:1) 它涵盖了广泛的现实场景并支持多语言内容,囊括了视频文本自然出现的多样化环境。2) 它引入了一个分层次的评估框架,包含视频级、片段级和实例级任务,既能评估全局概括能力,也能测试局部检索性能。3) 该基准还设置了一系列配对的感知推理任务,从视觉文本感知到文本与视觉信息间的跨模态推理。基于18种最先进的大型多模态模型(LMMs)的广泛实验表明,当前模型在多数任务上表现欠佳,存在显著的提升空间。进一步分析揭示了模型内在因素(如输入分辨率和OCR能力)与外部因素(如辅助信息的使用和思维链推理策略)的影响。我们期望VidText能够填补当前视频理解基准的空白,并为未来在动态环境中进行多模态视频文本推理的研究奠定基础。
诸如Whisper和SeamlessM4T等语音基础模型(SFMs)的发展,极大地推动了语音处理领域的进步。然而,这些模型的封闭性——训练数据和代码不可获取——带来了重大的可复现性和公平评估挑战。尽管其他领域通过开发基于开源(OS)代码和数据训练的完全透明模型,在开放科学方面取得了显著进展,但语音领域的类似努力仍显不足。为填补这一空白,我们推出了FAMA,这是首个面向英语和意大利语的开放科学SFM家族,基于超过15万小时的开源语音数据训练而成。此外,我们发布了一个包含1.6万小时经过清洗和伪标注语音的新数据集,涵盖上述两种语言。实验结果表明,FAMA在保持与现有SFMs竞争性能的同时,速度提升高达8倍。所有成果,包括代码、数据集和模型,均以符合开源标准的许可发布,旨在促进语音技术研究的开放性。
句子重音是指在口语表达中对特定词汇加以强调,以突出或对比某个观点,或引入新信息。它常用于暗示未明言的潜在意图。近年来,随着语音感知语言模型(SLMs)的进步,模型能够直接处理音频数据,绕开文字转录,充分利用语音信号的丰富信息,执行如口语问答等音频推理任务。尽管句子重音在塑造语义和说话者意图方面起着关键作用,但在这类模型的评估与开发中却常被忽视。本研究通过引入StressTest基准测试,专门评估模型基于重音模式区分口语句子解释的能力,填补了这一空白。我们对多个领先的SLMs进行了性能评估,发现尽管它们整体能力强大,但在此类任务上表现欠佳。为克服这一局限,我们提出了一种新颖的合成数据生成流程,并创建了Stress17k训练集,该数据集模拟了重音变化引发的意义转变。随后,我们通过实验证明,利用这一合成数据集优化模型,能很好地与现实世界的录音对齐,并有效实现SLMs的微调。结果表明,经过我们微调的模型StresSLM,在句子重音推理与检测任务上均显著优于现有模型。代码、模型、数据及音频样本详见:pages.cs.huji.ac.il/adiyoss-lab/stresstest。
安全推理是一种新兴范式,其中大型语言模型(LLMs)在生成响应前先对安全策略进行推理,从而缓解现有安全措施中的局限性,如过度拒绝和越狱漏洞。然而,实施这一范式颇具挑战,因为创建高质量的策略嵌入思维链(CoT)数据集是一个资源密集型过程,同时还需确保推理的准确性,避免幻觉或策略冲突。为此,我们提出了AIDSAFE:面向安全推理的代理迭代审议,这是一种新颖的数据生成方法,它利用多代理审议来迭代扩展对安全策略的推理。AIDSAFE中的数据精炼阶段通过消除重复、冗余和欺骗性思维来确保高质量输出。AIDSAFE生成的CoT为基于监督微调(SFT)的安全训练提供了坚实基础。此外,针对对齐阶段(如DPO训练)对偏好数据的需求,我们引入了一种补充方法,利用信念增强来创建明确的选择与拒绝CoT样本。我们的评估表明,AIDSAFE生成的CoT在策略遵循和推理质量上表现卓越。因此,我们证明,在这些CoT上对开源LLMs进行微调,可以显著提升安全泛化能力和越狱鲁棒性,同时保持可接受的实用性和过度拒绝准确性。AIDSAFE生成的CoT数据集可在此处获取:https://huggingface.co/datasets/AmazonScience/AIDSAFE。
诸如Transformer之类的序列模型要求输入以一维序列的形式表示。在视觉领域,这通常涉及使用固定的行优先(光栅扫描)顺序将图像展平。尽管完全自注意力机制具有排列等变性,但现代长序列Transformer越来越依赖于打破这种不变性并引入对补丁顺序敏感性的架构近似。我们证明,在这种设置下,补丁顺序显著影响模型性能,而简单的替代方案(如列优先或希尔伯特曲线)会导致显著的准确率变化。受此启发,我们提出了REOrder,一个用于发现任务最优补丁顺序的两阶段框架。首先,我们通过评估各种补丁序列的可压缩性来推导信息论先验。然后,我们通过使用REINFORCE优化Plackett-Luce策略来学习一个排列策略。这种方法能够在组合排列空间中进行高效学习。REOrder在ImageNet-1K上相比行优先顺序将top-1准确率提高了最多3.01%,在Functional Map of the World上提高了13.35%。
定理证明作为评估大型语言模型(LLMs)复杂推理能力的重要测试平台。然而,传统的自动定理证明(ATP)方法严重依赖形式化证明系统,这些系统与LLMs在预训练期间获得的非正式自然语言知识所展现的优势并不契合。在本研究中,我们提出了DeepTheorem,一个全面的非正式定理证明框架,利用自然语言增强LLM的数学推理能力。DeepTheorem包含一个大规模基准数据集,涵盖121K个高质量的IMO级别非正式定理及证明,横跨多个数学领域,并严格标注了正确性、难度及主题分类,同时配有系统构建的可验证定理变体。我们设计了一种新颖的强化学习策略(RL-Zero),专门针对非正式定理证明,利用已验证的定理变体激励稳健的数学推理。此外,我们提出了全面的结果与过程评估指标,检验证明的正确性及推理步骤的质量。广泛的实验分析表明,与现有数据集及监督微调协议相比,DeepTheorem显著提升了LLM的定理证明性能,达到了最先进的准确率与推理质量。我们的发现凸显了DeepTheorem在推动自动化非正式定理证明及数学探索方面的根本性潜力。
统一生成模型旨在通过单一架构和解码范式处理跨模态的多样化任务——如文本生成、图像生成及视觉语言推理。自回归统一模型因序列解码导致推理速度缓慢,而非自回归统一模型则因预训练骨干网络有限而泛化能力较弱。我们提出了Muddit,一种统一的离散扩散变换器,能够在文本和图像模态间实现快速并行生成。与以往从头训练的扩散模型不同,Muddit整合了预训练文本到图像骨干网络中的强大视觉先验知识,并配备轻量级文本解码器,从而在统一架构下实现灵活且高质量的多模态生成。实验结果表明,Muddit在质量和效率上均与规模显著更大的自回归模型相比具有竞争力或更优表现。该研究强调了在配备强大视觉先验的条件下,纯离散扩散作为统一生成可扩展且有效骨干网络的潜力。
强化学习算法对于将大型语言模型与人类偏好对齐并提升其推理能力至关重要。然而,当前的强化学习算法常因宽松的在线策略约束导致训练不稳定,以及辅助模型带来的计算效率低下问题。在本研究中,我们提出了一种新颖且简化的强化学习算法——基于最优奖励基线的在线策略强化学习(OPO),旨在应对这些挑战。OPO强调精确在线策略训练的重要性,实践证明这能稳定训练过程并增强探索能力。此外,OPO引入了理论上能最小化梯度方差的最优奖励基线。我们在数学推理基准上评估了OPO,结果显示其在无需额外模型或正则化项的情况下,展现出卓越的性能和训练稳定性。更重要的是,OPO实现了更低的策略偏移和更高的输出熵,促进了更加多样且减少重复的响应生成。这些成果表明,OPO为大型语言模型对齐与推理任务中的稳定有效强化学习开辟了有前景的方向。实现代码已发布于https://github.com/microsoft/LMOps/tree/main/opo。
近期,大型语言模型(LLM)代理的显著进展极大地推动了科学发现的自动化进程,但同时也引发了关键的伦理与安全问题。为系统性地应对这些挑战,我们推出了SafeScientist,一个创新的人工智能科学家框架,旨在强化AI驱动科学探索中的安全性与伦理责任。SafeScientist主动拒绝伦理不当或高风险的任务,并在整个研究过程中严格强调安全性。为实现全面的安全监管,我们整合了多重防御机制,包括提示监控、代理协作监控、工具使用监控及伦理审查组件。作为SafeScientist的补充,我们提出了SciSafetyBench,这是一个专门设计用于评估科学场景下AI安全性的新基准,涵盖了6个领域的240项高风险科学任务,以及30种特别设计的科学工具和120项与工具相关的风险任务。大量实验表明,与传统AI科学家框架相比,SafeScientist在保证科研成果质量的同时,显著提升了35%的安全性能。此外,我们严格验证了安全管道针对多种对抗攻击方法的鲁棒性,进一步证实了集成方法的有效性。代码与数据将在https://github.com/ulab-uiuc/SafeScientist 公开。红色警告:本文包含可能具有冒犯性或伤害性的示例数据。
世界模型的最新进展彻底革新了动态环境模拟,使系统能够预见未来状态并评估潜在行动。在自动驾驶领域,这些能力帮助车辆预测其他道路使用者的行为,进行风险感知规划,加速模拟训练,并适应新场景,从而提升安全性和可靠性。现有方法在保持稳健的3D几何一致性或处理遮挡时累积伪影方面存在不足,这两点对于自动驾驶导航任务中的可靠安全评估至关重要。为解决这一问题,我们引入了GeoDrive,它明确地将稳健的3D几何条件整合到驾驶世界模型中,以增强空间理解和行动可控性。具体而言,我们首先从输入帧中提取3D表示,然后根据用户指定的自车轨迹获得其2D渲染。为了实现动态建模,我们在训练过程中提出了一个动态编辑模块,通过编辑车辆位置来增强渲染效果。大量实验表明,我们的方法在行动准确性和3D空间感知方面显著优于现有模型,从而实现了更真实、适应性更强且可靠的场景建模,为更安全的自动驾驶提供了保障。此外,我们的模型能够泛化到新轨迹,并提供交互式场景编辑功能,如对象编辑和对象轨迹控制。
链式思维(CoT)推理使大型语言模型(LLMs)能够超越快速的系统1响应,进入深思熟虑的系统2推理模式。然而,这一过程因冗长的中间输出而显著降低了效率。近期的潜在空间推理方法通过直接在隐藏状态上操作而不解码成语言,提升了效率,但它们对所有步骤一视同仁,未能区分关键推理与辅助步骤,导致计算资源利用不佳。本文提出系统1.5推理,一种自适应推理框架,通过在潜在空间中的快捷路径动态分配计算资源至各推理步骤。具体而言,系统1.5推理引入了两种动态快捷方式:模型深度快捷(DS)沿垂直深度自适应推理,通过轻量级适配器分支提前退出非关键令牌,同时允许关键令牌继续通过更深层的Transformer层;步骤快捷(SS)则在解码步骤间重用隐藏状态,跳过平凡步骤,在潜在空间中进行横向推理。训练系统1.5推理涉及两阶段自蒸馏过程:首先将自然语言CoT蒸馏为潜在空间的连续思维,随后将完整路径的系统2潜在推理蒸馏为自适应快捷路径(系统1.5推理)。在推理任务上的实验验证了本方法的优越性能。例如,在GSM8K数据集上,系统1.5推理实现了与传统CoT微调方法相当的推理性能,同时推理速度提升超过20倍,平均减少92.31%的令牌生成。
医患咨询需要多轮次、情境感知的交流,并针对多样化的患者角色进行定制。在此类场景中训练或评估医生大语言模型(LLMs)需要真实的患者互动系统。然而,现有的模拟器往往无法全面反映临床实践中遇到的各种患者角色。为解决这一问题,我们引入了PatientSim,这是一个基于医学专业知识,为临床场景生成真实且多样化患者角色的患者模拟器。PatientSim通过以下两种方式运作:1)临床档案,包括从MIMIC-ED和MIMIC-IV数据集中提取的真实世界数据中的症状和医疗史;2)由四个维度定义的角色:性格、语言熟练度、医疗史回忆水平及认知混淆程度,共形成37种独特组合。我们评估了八种LLMs在事实准确性和角色一致性上的表现。表现最佳的开源模型Llama 3.3,经过四位临床医生的验证,确认了我们框架的稳健性。作为一个开源、可定制的平台,PatientSim提供了一个可复制且可扩展的解决方案,能够根据特定培训需求进行定制。它提供了一个符合隐私保护的环境,作为评估医疗对话系统在不同患者表现下的强大测试平台,并展现出作为医疗教育工具的潜力。
基于Transformer的大型语言模型(LLMs)在推理过程中将上下文缓存为键值对(KV)。随着上下文长度的增加,KV缓存规模随之扩大,导致显著的内存开销和注意力延迟增加。本文提出了KVzip,一种与查询无关的KV缓存淘汰方法,能够在多样化的查询中有效重用压缩后的KV缓存。KVzip通过底层LLM量化KV对的重要性,以从缓存的KV对中重建原始上下文,随后淘汰重要性较低的KV对。大量实验评估表明,KVzip将KV缓存大小减少了3至4倍,并将FlashAttention解码延迟降低了约2倍,同时在问答、检索、推理及代码理解任务中性能损失微乎其微。评估涵盖了多种模型,如LLaMA3.1-8B、Qwen2.5-14B和Gemma3-12B,上下文长度最高可达17万令牌。在多查询场景下,即使缓存预算比达到90%,KVzip也显著优于现有的查询感知型KV淘汰方法,后者在此条件下会出现性能下降。
扩散模型已展现出卓越的生成质量,但代价是大量的函数评估。近期,基于ODE的高级求解器被开发出来,以缓解在有限采样步数下逆向扩散求解的巨大计算需求。然而,这些深受亚当斯类多步方法启发的求解器,仅依赖于与时间t相关的拉格朗日插值。我们证明,对于扩散模型而言,t相关的拉格朗日插值并非最优,并揭示了一个由时间步长和求解器系数构成的紧凑搜索空间。基于此分析,我们提出了一种新颖的可微分求解器搜索算法,以识别更优的求解器。配备所搜索到的求解器后,修正流模型,如SiT-XL/2和FlowDCN-XL/2,在仅10步的情况下,于ImageNet256上分别取得了2.40和2.35的FID分数。同时,DDPM模型DiT-XL/2在仅10步时也达到了2.33的FID分数。值得注意的是,我们搜索到的求解器显著优于传统求解器。此外,我们的求解器在不同模型架构、分辨率及模型大小上均展现出良好的通用性。
现有的视频理解基准测试常将基于知识的提问与纯图像层面的问题混为一谈,而非明确分离模型的时间推理能力——这是视频理解区别于其他模态的关键所在。我们识别出两大局限,它们模糊了高分是否真正意味着对视频动态内容更深层次的理解:(1)强大的语言先验,即模型无需观看视频即可回答问题;(2)顺序不变性,即即便视频帧在时间上被打乱,模型在某些问题上仍能保持相近的表现。为缓解这些问题,我们提出了VBenchComp,一个自动化流程,它将问题分类至不同领域:LLM可答型、语义型及时间型。具体而言,LLM可答型问题无需观看视频即可解答;语义型问题即使视频帧被打乱仍可回答;而时间型问题则要求理解帧的正确时序。其余问题被标记为其他类。这一方法能够实现对视频大语言模型不同能力的细粒度评估。我们的分析揭示了传统总分所掩盖的模型微妙弱点,并为设计能更精准评估视频大语言模型的未来基准测试提供了洞见与建议。
随着深度生成模型,尤其是基于扩散方法的技术崛起,视频生成已取得显著进展。然而,基于多参考主体的视频生成在保持多主体一致性和确保高质量生成方面仍面临重大挑战。本文提出MAGREF,一个统一的多参考视频生成框架,通过引入掩码指导,实现在多样参考图像和文本提示条件下的连贯多主体视频合成。具体而言,我们提出了(1)区域感知的动态掩码机制,使单一模型无需架构改动即可灵活处理包括人物、物体及背景在内的各类主体推理;(2)像素级通道拼接机制,作用于通道维度以更好地保留外观特征。我们的模型在视频生成质量上达到业界领先水平,从单主体训练泛化至复杂多主体场景,实现连贯合成与对单个主体的精确控制,超越了现有开源及商业基线。为促进评估,我们还引入了一个全面的多主体视频基准。大量实验验证了方法的有效性,为可扩展、可控且高保真的多主体视频合成铺平了道路。代码与模型可访问:https://github.com/MAGREF-Video/MAGREF。
大型语言模型(LLMs)在说服任务中展现出显著潜力,然而现有关于训练LLM说服者的研究仍处于初步阶段。值得注意的是,人类擅长主动且动态地模拟对手的思维与观点,而当前的LLMs在此类心智理论(Theory of Mind, ToM)推理上表现欠佳,导致其多样性与对手意识受限。为克服这一局限,我们提出了心智理论增强型说服者(Theory of Mind Augmented Persuader, ToMAP),这是一种通过整合两个心智理论模块来提升说服者对对手心理状态的意识与分析能力的新颖方法。具体而言,我们首先提示说服者考虑目标核心主张可能遭遇的反对意见,随后利用文本编码器配合训练好的多层感知机分类器预测对手对这些反论点的当前立场。我们精心设计的强化学习框架使说服者学会分析对手相关信息,并运用这些信息生成更具说服力的论点。实验表明,仅含30亿参数的ToMAP说服者在多个被说服模型及多样语料库上的表现均优于如GPT-4o等更大规模的基线模型,相对提升达39.4%。尤为突出的是,ToMAP在训练过程中展现出复杂的推理链条和减少的重复现象,从而产生更多样且有效的论点。ToMAP的对手意识特性还使其适用于长时间对话,并能采用更具逻辑性和对手意识的策略。这些结果验证了我们方法的有效性,并凸显了其在开发更具说服力的语言代理方面的潜力。代码已发布于:https://github.com/ulab-uiuc/ToMAP。
本文中,我们将Diff-Instruct、DMD、SIM、SiD、f-distill等十余种现有的一步扩散蒸馏方法统一于一个理论驱动的框架内,称之为\emph{Uni-Instruct}。Uni-Instruct的提出基于我们提出的f-散度族扩散扩展理论。随后,我们引入关键理论,解决了原始扩展f-散度难以处理的问题,导出了一个等效且可操作的损失函数,通过最小化扩展f-散度族有效训练一步扩散模型。Uni-Instruct所引入的新颖统一不仅提供了新的理论贡献,有助于从高层次视角理解现有方法,还带来了一流的一步扩散生成性能。在CIFAR10生成基准测试中,Uni-Instruct在无条件生成和有条件生成上分别创下了\emph{1.46}和\emph{1.38}的Frechet Inception Distance (FID)记录。在ImageNet-64×64生成基准测试中,Uni-Instruct以\emph{1.02}的FID成绩刷新了一步生成的最高纪录,显著优于其79步教师扩散模型的2.35,提升幅度达1.33(1.02对2.35)。此外,我们还将Uni-Instruct应用于文本到3D生成等更广泛的任务。在文本到3D生成方面,Uni-Instruct取得了不错的结果,在生成质量和多样性上均略优于SDS和VSD等先前方法。Uni-Instruct坚实的理论和实证贡献,有望为未来一步扩散蒸馏及扩散模型知识迁移的研究提供有力支持。
音频源分离是机器理解复杂声学环境的基础,支撑着众多音频应用。当前基于监督学习的深度学习方法虽然强大,却受限于对大量任务特定标注数据的需求,且难以泛化到现实世界声学场景的巨大多变性和开放集特性。受生成式基础模型成功的启发,我们探究了预训练的文本引导音频扩散模型能否克服这些局限。我们有一个意外发现:在适当配置下,仅通过预训练的文本引导音频扩散模型即可实现零样本源分离。我们的方法名为ZeroSep,其工作原理是将混合音频反演至扩散模型的潜在空间,随后利用文本条件引导去噪过程以恢复各个声源。无需任何任务特定的训练或微调,ZeroSep便将生成式扩散模型重新用于判别式分离任务,并通过其丰富的文本先验天然支持开放集场景。ZeroSep兼容多种预训练的文本引导音频扩散模型骨架,在多个分离基准测试中展现出强劲的分离性能,甚至超越了监督学习方法。
大型语言模型(LLMs)虽能生成功能正确的解决方案,但在代码效率上往往表现欠佳,这成为实际部署中的关键瓶颈。本文提出了一种新颖的测试时迭代优化框架,采用闭环系统,让LLMs基于执行沙箱中的性能反馈不断优化代码。我们探讨了三种训练策略:监督微调(SFT)、直接偏好优化(DPO)以及组相对策略优化(GRPO)。在Venus数据集和APPS基准上的实验表明,SFT和DPO在效率提升上迅速达到饱和。相比之下,GRPO利用强化学习(RL)结合执行反馈,持续优化代码性能,显著提高了pass@1(从47%提升至62%)及在效率上超越人类提交的可能性(从31%增至45%)。本研究不仅展示了测试时代码效率提升的有效性,更重要的是揭示了RL在教导LLMs真正自我提升代码效率方面的强大潜力。
我们提出了一种统一的视频生成运动控制框架,该框架通过基于轨迹的输入,无缝整合了摄像机运动、物体级平移以及精细局部运动。与以往采用独立模块或任务特定设计来处理这些运动类型的方法不同,我们的方案通过轻量级运动注入器,将用户定义的轨迹投射至预训练图像到视频生成模型的潜在空间,从而提供了一种连贯的解决方案。用户可通过指定关键点及其运动路径,来控制局部形变、整体物体运动、虚拟摄像机动态或这些元素的组合。注入的轨迹信号引导生成过程,产生时间上一致且语义对齐的运动序列。我们的框架在多种视频运动控制任务中展现了卓越性能,包括风格化运动效果(如运动笔刷)、动态视角变化以及精确的局部运动操控。实验表明,相较于先前方法和商业解决方案,我们的方法在保持与多种先进视频生成骨干广泛兼容的同时,提供了显著更优的可控性和视觉质量。项目页面:https://anytraj.github.io/。
扩散变换器(DiT)已成为生成高质量视觉内容(如视频和图像)的实际标准模型。一个巨大的瓶颈在于注意力机制,其复杂度随分辨率和视频长度呈二次方增长。减轻这一负担的一种合理方法是稀疏注意力,即仅计算部分标记或图像块。然而,现有技术在极高稀疏度下无法保持视觉质量,甚至可能带来不可忽视的计算开销。为解决这一问题,我们提出了Re-ttention,它利用扩散模型的时间冗余性,在视觉生成模型中实现极高稀疏度的注意力机制,以克服注意力机制内的概率归一化偏移。具体而言,Re-ttention根据先前的softmax分布历史重塑注意力分数,从而在极高稀疏度下保持全二次方注意力的视觉质量。在CogVideoX和PixArt DiTs等T2V/T2I模型上的实验结果表明,Re-ttention在推理时仅需3.1%的标记,优于FastDiTAttn、Sparse VideoGen和MInference等当代方法。此外,我们通过延迟测量表明,在H100 GPU上,我们的方法能以可忽略的开销实现超过45%的端到端延迟减少和超过92%的自注意力延迟减少。 代码可在线获取: https://github.com/cccrrrccc/Re-ttention{https://github.com/cccrrrccc/Re-ttention}
我们训练了13,440个大型语言模型,发现熵最小化仅需单个未标注数据和10步优化,就能达到甚至超越基于规则的强化学习中使用数千数据和精心设计奖励所获得的性能提升。这一惊人发现可能促使我们重新思考大型语言模型的训练后优化范式。我们的代码已发布于https://github.com/zitian-gao/one-shot-em。
谜语画,一种通过图像、空间布局和符号替换来编码语言的视觉谜题,对当前的视觉-语言模型(VLMs)提出了独特挑战。与传统的图像描述或问答任务不同,解谜语画需要多模态抽象、符号推理以及对文化、语音和语言双关的把握。本文通过构建一个手工生成并标注的多样化英语谜语画基准,从简单的象形替换到空间依赖的线索(如“头”在“脚”上),探讨了当代VLMs在解读和解决谜语画方面的能力。我们分析了不同VLMs的表现,发现尽管这些模型在解码简单视觉线索时展现出一些令人惊讶的能力,但在需要抽象推理、横向思维及理解视觉隐喻的任务上却显著受限。
近期,具备思维轨迹的大型推理模型(LRMs)在英语推理任务中展现了强劲性能。然而,这些模型在其他语言中的思考能力却鲜有研究。对于实际应用而言,这种能力与答案准确性同等重要,因为只有当推理轨迹以用户母语呈现时,用户才能有效利用其进行监督。我们在XReasoning基准上全面评估了两大主流LRM系列,发现即便是最先进的模型,也常常回归英语或在其他语言中产生碎片化的推理,暴露出多语言推理能力的显著差距。通过提示干预强制模型以用户语言进行推理,虽提升了可读性和监督效果,却降低了答案准确性,揭示了一个重要的权衡点。我们进一步证明,仅针对100个示例进行针对性后训练即可缓解这种不匹配,尽管仍存在一定的准确性损失。我们的研究结果凸显了当前LRMs在多语言推理能力上的局限,并为未来工作指明了方向。代码与数据可在https://github.com/Betswish/mCoT-XReasoning获取。
近期,大型视觉语言模型(LVLMs)的进展为医疗任务带来了诸多应用前景,如报告生成和视觉问答。然而,现有基准主要关注最终的诊断结果,对模型是否进行临床上有意义的推理提供的信息有限。为此,我们提出了基于公开可用的MIMIC-CXR-JPG数据集的CheXStruct和CXReasonBench,一个结构化流程与基准测试。CheXStruct直接从胸部X光片中自动推导出一系列中间推理步骤,如分割解剖区域、提取解剖标志和诊断测量值、计算诊断指标以及应用临床阈值。CXReasonBench利用这一流程评估模型能否执行临床有效的推理步骤,以及它们能在多大程度上从结构化指导中学习,从而实现对诊断推理的细粒度和透明化评估。该基准包含12项诊断任务中的18,988个问答对及1,200个案例,每个案例最多配以4个视觉输入,支持多路径、多阶段评估,包括通过解剖区域选择和诊断测量进行的视觉定位。即便在评估的10个最强LVLMs中,模型在结构化推理和泛化方面仍面临挑战,往往难以将抽象知识与基于解剖学的视觉解释联系起来。代码可在https://github.com/ttumyche/CXReasonBench获取。
视觉语言模型(VLMs)在视觉与文本模态的对齐方面展现了强大的能力,推动了多模态理解与生成的广泛应用。尽管在零样本学习和迁移学习场景中表现出色,VLMs仍易受误分类影响,常做出自信但错误的预测。这一局限在安全关键领域构成了重大风险,错误预测可能导致严重后果。本研究中,我们提出了TrustVLM,一个无需重新训练即可解决VLM预测可信度评估这一关键挑战的框架。受VLMs中模态差距的观察及某些概念在图像嵌入空间中表现更为显著的启发,我们设计了一种新颖的置信度评分函数,利用该空间提升误分类检测能力。我们在17个多样化数据集上,采用4种架构和2种VLMs进行了严格评估,结果显示TrustVLM在AURC上提升高达51.87%,AUROC提升9.14%,FPR95降低32.42%,均超越现有基线,达到最先进水平。通过无需重新训练即可提升模型可靠性,TrustVLM为VLMs在现实世界应用中的安全部署铺平了道路。代码将在https://github.com/EPFL-IMOS/TrustVLM 公开。
我们提出了UniTEX,一种新颖的两阶段3D纹理生成框架,旨在为3D资产创建高质量且一致的纹理。现有方法主要依赖于在将生成的多视角图像重新投影到3D形状后,通过基于UV的修复来细化纹理,这引入了与拓扑模糊性相关的挑战。为解决这一问题,我们提议绕过UV映射的限制,直接在统一的3D功能空间中操作。具体而言,我们首先提出通过纹理函数(TFs)将纹理生成提升至3D空间——这是一种连续的体积表示,仅基于表面接近度将任意3D点映射到纹理值,与网格拓扑无关。随后,我们提出使用基于Transformer的大规模纹理模型(LTM)直接从图像和几何输入预测这些TFs。为进一步提升纹理质量并利用强大的2D先验知识,我们开发了一种基于LoRA的高级策略,高效地适应大规模扩散Transformer(DiTs),用于高质量的多视角纹理合成,作为我们的第一阶段。大量实验表明,UniTEX在视觉质量和纹理完整性方面均优于现有方法,为自动化3D纹理生成提供了一个可推广且可扩展的解决方案。代码将发布于:https://github.com/YixunLiang/UniTEX。
高斯溅射(Gaussian Splatting, GS)作为一种从二维图像渲染三维场景的高效表示方法,近期崭露头角,并已扩展至图像、视频及动态四维内容的处理。然而,将风格迁移应用于基于GS的表示,尤其是超越简单的色彩变换,仍面临挑战。本研究提出了CLIPGaussians,这是首个支持跨多种模态(包括二维图像、视频、三维物体及四维场景)的文本与图像引导风格迁移的统一框架。我们的方法直接作用于高斯基元,并作为插件模块无缝集成到现有的GS流程中,无需依赖大型生成模型或从头训练。CLIPGaussians方法实现了在三维和四维环境下色彩与几何的联合优化,在视频中保持时间一致性,同时维持模型规模不变。我们展示了在所有任务中卓越的风格保真度与一致性,验证了CLIPGaussians作为多模态风格迁移的通用高效解决方案的有效性。
现有的思维链(CoT)蒸馏方法虽能有效将推理能力迁移至基础模型,却面临两大局限:推理轨迹过于冗长及对问题难度的适应性不足。冗长的推理轨迹显著增加了推理成本,而统一长度的解决方案阻碍了基础模型学习适应性推理策略。为解决这些问题,我们提出了一种难度感知提示(DAP)方法,旨在动态缩短推理轨迹而不损失性能。在该方法中,大型教师模型首先评估每个问题的难度,随后将其推理轨迹重写至适当较短的长度,生成简洁而完整的推理轨迹。借助DAP流程,我们构建了一个名为LiteCoT的蒸馏数据集,包含10万条简洁推理示例,其解决方案平均仅720个token(比典型CoT短一个数量级)。利用LiteCoT,我们基于Qwen2.5架构蒸馏出了一系列新的推理模型,称为Liter(1.5B、7B和32B)。实验表明,仅用10万条经过难度筛选的CoT样本微调的学生模型,其表现优于使用80万条原始长CoT样本蒸馏的模型,同时显著降低了训练和推理成本。我们的方法还展现出良好的泛化能力:在11个多样化基准测试中,较短的难度感知CoT在准确率上达到或超越了长链推理,且使用的token数量大幅减少。例如,在具有挑战性的AIME24考试中,我们的方法仅消耗约5K推理token便实现了74.2%的Pass@1,超越了消耗更多token的其他方法。我们的代码和数据可在https://github.com/Evanwu1125/LiteCoT获取。
我们提出了一种基于关键帧的框架,用于生成音乐同步且编排感知的动物舞蹈视频。从代表不同动物姿态的少量关键帧出发——这些关键帧通过文本到图像提示或GPT-4o生成——我们将舞蹈合成建模为一个图优化问题:寻找满足特定编排节拍模式的最优关键帧结构,该模式可从参考舞蹈视频中自动估算得出。我们还引入了一种镜像姿态图像生成方法,这对于捕捉舞蹈中的对称性至关重要。中间帧则通过视频扩散模型进行合成。仅需六个输入关键帧,我们的方法便能生成涵盖多种动物和音乐曲目、长达30秒的舞蹈视频。
前馈式3D高斯溅射(3DGS)模型近期作为新视角合成的一种有前景解决方案崭露头角,它支持单次推理而无需针对每个场景进行3DGS优化。然而,其可扩展性从根本上受到编码器容量有限的制约,随着输入视图数量的增加,性能会下降或内存消耗会激增。在本研究中,我们通过信息瓶颈原理的视角分析了前馈式3DGS框架,并引入了ZPressor——一个轻量级、架构无关的模块,它能够高效地将多视图输入压缩为一个紧凑的潜在状态Z,该状态保留了场景的关键信息同时剔除了冗余。具体而言,ZPressor通过将视图划分为锚点集和支持集,并利用交叉注意力机制将支持视图的信息压缩至锚点视图中,形成压缩后的潜在状态Z,使得现有的前馈式3DGS模型能够在80GB GPU上处理超过100个480P分辨率的输入视图。我们展示了将ZPressor集成到多个先进的前馈式3DGS模型中,在中等数量输入视图下持续提升性能,并在DL3DV-10K和RealEstate10K两大基准测试的密集视图设置下增强了鲁棒性。视频结果、代码及训练模型可在我们的项目页面获取:https://lhmd.top/zpressor。
开发高性能软件是一项复杂的任务,需要专业的知识。我们引入了GSO,这是一个用于评估语言模型在开发高性能软件方面能力的基准。我们开发了一个自动化流程,通过生成和执行性能测试来分析代码库的提交历史,从而识别出10个代码库中的102个具有挑战性的优化任务,这些任务涵盖了多个领域和编程语言。我们为智能体提供了一个代码库和性能测试作为精确的规范,并要求其提高运行效率,这一效率将与专家开发者的优化结果进行对比。我们的定量评估显示,领先的软件工程智能体表现显著不佳,成功率不足5%,即使在推理时进行扩展,改进也有限。我们的定性分析揭示了关键失败模式,包括在低级语言处理上的困难、实施惰性优化策略的挑战,以及准确定位性能瓶颈的难题。我们发布了基准的代码和相关资源,以及智能体的执行轨迹,以促进未来的研究。
尽管预训练的多模态表示(如CLIP)展现了卓越的能力,它们却存在显著的组合脆弱性,导致反直觉的判断。我们提出了多模态对抗组合性(MAC)基准,该基准利用大型语言模型(LLMs)生成欺骗性文本样本,以跨不同模态挖掘这些脆弱性,并通过样本级攻击成功率和基于熵的群体多样性进行评估。为了提升零样本方法,我们提出了一种自训练策略,采用拒绝采样微调与促进多样性的过滤机制,从而同时提高攻击成功率和样本多样性。使用如Llama-3.1-8B等较小的语言模型,我们的方法在揭示涵盖图像、视频和音频等多种多模态表示的组合脆弱性方面,展现出优越性能。
近年来,AI驱动的图像生成技术取得了飞速进展。早期的扩散模型侧重于感知质量,而如GPT-4o-image等新型多模态模型则整合了高级推理能力,提升了语义理解和结构布局。科学插图生成领域正是这一演变的典型例证:与通用图像合成不同,它要求准确解读技术内容,并将抽象概念转化为清晰、标准化的视觉表达。这一任务知识密集度更高,且更为耗时费力,往往需要数小时的手工操作和专用工具。若能以可控、智能的方式实现其自动化,将带来巨大的实用价值。然而,目前尚缺乏评估AI在此方面表现的基准。为填补这一空白,我们推出了SridBench,首个科学图表生成基准。它包含从13个自然科学与计算机科学领域的顶尖论文中精心挑选的1,120个实例,由人类专家和多模态大语言模型共同收集。每个样本从六个维度进行评估,包括语义忠实度和结构准确性。实验结果显示,即便是GPT-4o-image这样的顶级模型,在文本/视觉清晰度和科学准确性方面也普遍存在问题,整体表现仍逊色于人类。这些发现凸显了开发更先进的推理驱动视觉生成能力的迫切需求。
放射学报告详细记录了临床观察结果,并捕捉了随时间演变的诊断推理过程。然而,现有的评估方法仅限于单份报告场景,且依赖于粗糙的指标,无法捕捉细粒度的临床语义和时间依赖性。我们推出了LUNGUAGE,一个用于结构化放射学报告生成的基准数据集,它支持单份报告评估和跨多次研究的纵向患者层面评估。该数据集包含1,473份经过专家审阅的胸部X光报告,其中80份包含纵向注释,以捕捉疾病进展和研究间间隔,这些注释同样经过专家审阅。利用这一基准,我们开发了一个两阶段框架,将生成的报告转化为细粒度、与模式对齐的结构化表示,从而实现纵向解读。我们还提出了LUNGUAGESCORE,一种可解释的评估指标,它在实体、关系和属性层面比较结构化输出,同时建模患者时间线上的时间一致性。这些贡献为序列放射学报告建立了首个基准数据集、结构化框架和评估指标,实证结果表明LUNGUAGESCORE有效支持了结构化报告评估。代码已公开于:https://github.com/SuperSupermoon/Lunguage。
随着多模态大语言模型(MLLMs)能力的不断提升,其在图表理解等任务上取得了显著进展。然而,这些模型常面临“幻觉”问题,即生成的文本序列与提供的视觉数据相矛盾。为解决此问题,我们引入了“事后视觉归因于图表”的方法,该方法能够识别出验证特定图表相关响应的细粒度图表元素。我们提出了ChartLens,一种新颖的图表归因算法,该算法利用基于分割的技术识别图表对象,并通过MLLMs采用标记集提示实现细粒度视觉归因。此外,我们推出了ChartVA-Eval基准测试,该基准包含来自金融、政策和经济等多个领域的合成及真实世界图表,并配有细粒度归因标注。评估结果显示,ChartLens在细粒度归因方面提升了26%至66%。
大型语言模型作为神经知识库,其知识获取、可编辑性、推理能力及可解释性已得到广泛研究。然而,针对其知识结构模式的研究却相对匮乏。基于此,我们从图论视角出发,深入探究了这些结构模式。我们分别在三元组和实体层面量化了大型语言模型的知识,并分析了其与图结构属性(如节点度数)的关联。此外,我们揭示了知识同质性现象,即拓扑结构相近的实体展现出相似的知识水平,这进一步激励我们开发图机器学习模型,通过实体局部邻居来估计其知识水平。该模型还能通过筛选大型语言模型较不熟悉的三元组,实现有价值的知识校验。实证结果表明,利用筛选出的三元组进行微调,能显著提升模型性能。
空间智能对于在复杂物理世界中运行的多模态大语言模型(MLLMs)至关重要。然而,现有基准仅探测单张图像关系,因而无法评估现实世界部署所需的多图像空间推理能力。我们推出了MMSI-Bench,一个专注于多图像空间智能的视觉问答(VQA)基准。六位3D视觉研究人员耗时超过300小时,从超过12万张图像中精心制作了1000道具有挑战性且无歧义的多选题,每道题均配有精心设计的干扰项及逐步推理过程。我们进行了广泛的实验,全面评估了34个开源及专有的MLLMs,发现存在显著差距:最强的开源模型准确率约为30%,OpenAI的o3推理模型达到40%,而人类得分高达97%。这些结果凸显了MMSI-Bench的挑战性及未来研究的巨大提升空间。利用标注的推理过程,我们还提供了一个自动化错误分析管道,诊断出四大主要失败模式,包括(1)基础错误,(2)重叠匹配与场景重建错误,(3)情境转换推理错误,以及(4)空间逻辑错误,为推进多图像空间智能研究提供了宝贵洞见。项目页面:https://runsenxu.com/projects/MMSI_Bench。
直接偏好优化(Direct Preference Optimization, DPO)已成为一种标准技术,用于以监督方式将语言模型与人类偏好对齐。尽管其在实际应用中取得了成功,但其对数比奖励参数化的理论依据仍不完整。在本研究中,我们通过利用差分信息分布(Differential Information Distribution, DID)来填补这一空白:DID是一种捕捉策略更新过程中获得信息的令牌序列分布。首先,我们证明当偏好标签编码了将参考策略转化为目标策略所需的差分信息时,DPO中的对数比奖励作为通过偏好优化学习目标策略的唯一最优形式自然显现。这一结果自然地导出了对拒绝响应进行最优采样的闭式表达式。其次,我们发现偏好编码差分信息的条件与对数边际有序策略的隐含假设——一种在偏好优化中广泛使用但此前未被识别的归纳偏置——存在根本联系。最后,通过分析DID的熵,我们刻画了学习低熵差分信息如何强化策略分布,而高熵差分信息则引发平滑效应,这解释了对数似然位移现象。我们在合成实验中验证了理论发现,并将其扩展至现实世界的指令跟随数据集。我们的结果表明,学习高熵差分信息对于通用指令跟随至关重要,而学习低熵差分信息则有利于知识密集型问答。总体而言,我们的工作通过差分信息的视角,为DPO目标、偏好数据结构及由此产生的策略行为提供了一个统一的理解框架。
尽管通过思维链进行强化学习(RL)已显著提升了语言模型在数学和编码等任务中的表现,但视觉推理因其要求模型引导视觉注意力、解析感知输入并将抽象推理基于空间证据而引入了额外的复杂性。我们提出了ViGoRL(视觉基础强化学习),这是一种通过RL训练的视觉-语言模型,旨在明确地将每一步推理锚定到特定的视觉坐标上。受人类视觉决策启发,ViGoRL学习生成空间基础推理轨迹,在每一步引导视觉注意力至任务相关区域。当需要精细探索时,我们新颖的多轮RL框架使模型能够在推理过程中动态放大预测坐标。在一系列视觉推理基准测试中——包括用于空间推理的SAT-2和BLINK、用于视觉搜索的V*bench,以及用于网页基础推理的ScreenSpot和VisualWebArena——ViGoRL始终优于缺乏明确基础机制的有监督微调和传统RL基线。结合多轮RL与放大视觉反馈显著提升了ViGoRL在定位小型GUI元素和视觉搜索任务上的表现,在V*Bench上达到了86.4%的准确率。此外,我们发现基础推理增强了其他视觉行为,如区域探索、基础子目标设定和视觉验证。最后,人类评估显示,模型的视觉参考不仅空间定位准确,而且有助于理解模型的推理步骤。我们的结果表明,视觉基础强化学习是赋予模型通用视觉推理能力的强大范式。
后训练量化(PTQ)的主要目标是生成一个压缩模型,其输出分布尽可能接近原始模型。为实现这一目标,几乎所有大语言模型(LLM)的PTQ算法都通过独立最小化即时激活误差来量化线性层。然而,这种局部目标忽略了后续层的影响,因此减少该误差并不必然带来更接近的模型。在本研究中,我们引入了另一种量化算法(YAQA),这是一种自适应舍入算法,利用各线性层关于全模型KL散度的Kronecker分解近似Hessian矩阵。YAQA包含两个组成部分:可在大规模参数(如千亿级)LLM上高效计算的全层Hessian矩阵的Kronecker分解草图,以及一个独立于量化器的舍入算法,该算法利用这些草图并附带理论保证。在多种模型和量化器上,YAQA实证将KL散度相对于原始模型减少了约30%,同时在下游任务中实现了最先进的性能。
创造力评估仍是大型语言模型(LLMs)面临的一大挑战。当前的评估方法过度依赖效率低下且成本高昂的人工判断,阻碍了机器创造力提升的进程。尽管存在从心理测试到启发式或提示引导的自动化方法,它们往往缺乏普适性或与人类判断的一致性。为解决这些问题,本文提出了一种新颖的成对比较框架,用于评估文本创造力,通过共享上下文指令提升评估一致性。我们引入了CreataSet,一个包含10万+人类级别及100万+合成创意指令-响应对的大规模数据集,覆盖多样化的开放域任务。通过在CreataSet上的训练,我们开发了名为CrEval的基于LLM的评估器。CrEval在与人类判断的一致性上展现出显著优势,超越了现有方法。实验结果强调了融合人类生成数据与合成数据在训练高鲁棒性评估器中的不可或缺性,并展示了CrEval在提升LLMs创造力方面的实际应用价值。我们将很快公开所有数据、代码及模型,以支持进一步研究。
在本研究中,我们揭示了视觉分词器(visual tokenizers)和变分自编码器(VAEs)在保留细粒度特征方面的局限性,并提出了一个基准来评估两种具有挑战性的视觉内容——文本和人脸的重建性能。视觉分词器和VAEs通过提供更高效的压缩或量化图像表示,显著推动了视觉生成和多模态建模的发展。然而,尽管这些技术有助于生产模型减轻计算负担,图像压缩带来的信息丢失从根本上限制了视觉生成质量的上限。为了评估这一上限,我们着重考察重建后的文本和面部特征,因为它们通常具有以下特点:1) 存在于较小尺度,2) 包含密集且丰富的纹理,3) 容易崩溃,4) 对人类视觉高度敏感。我们首先从现有数据集中收集并整理了一组多样化的清晰文本和人脸图像。与使用视觉语言模型(VLM)的方法不同,我们采用成熟的OCR和面部识别模型进行评估,确保准确性的同时,保持了极其轻量级的评估流程,仅需2GB内存和4分钟即可完成。利用我们的基准,我们分析了不同尺度下各种图像分词器和VAEs的文本和人脸重建质量。结果表明,现代视觉分词器在保留细粒度特征方面仍面临挑战,尤其是在较小尺度上。我们进一步将该评估框架扩展至视频领域,对视频分词器进行了全面分析。此外,我们证明传统指标无法准确反映人脸和文本的重建性能,而我们提出的指标则作为有效的补充。
大型语言模型(LLMs)在生物医学等科学领域展现出显著潜力,尤其是在假设生成方面,它们能够分析海量文献、识别模式并建议研究方向。然而,一个关键挑战在于评估生成假设的真实性,因为验证其准确性通常需要大量时间和资源。此外,LLMs中的幻觉问题可能导致生成看似合理但最终错误的假设,从而削弱其可靠性。为了系统研究这些挑战,我们引入了TruthHypo,一个用于评估LLMs生成真实生物医学假设能力的基准,以及KnowHD,一个基于知识的幻觉检测器,用于评估假设在现有知识中的扎根程度。我们的结果表明,LLMs在生成真实假设方面存在困难。通过分析推理步骤中的幻觉,我们证明KnowHD提供的扎根性评分是筛选LLMs多样化输出中真实假设的有效指标。人类评估进一步验证了KnowHD在识别真实假设和加速科学发现方面的实用性。我们的数据和源代码可在https://github.com/Teddy-XiongGZ/TruthHypo获取。
词级质量评估(WQE)旨在自动识别机器翻译输出中的细粒度错误片段,并在诸多场景中发挥作用,包括辅助译者在后期编辑过程中进行工作。现代WQE技术往往成本高昂,涉及大型语言模型的提示或针对大量人工标注数据的特定训练。在本研究中,我们探索了利用语言模型可解释性和不确定性量化最新进展的高效替代方案,通过翻译模型内部机制来识别翻译错误。在涵盖12种翻译方向、14项指标的评估中,我们通过使用多组人工标注数据量化了人类标注差异对指标性能的影响。我们的研究结果凸显了无监督指标的未开发潜力,监督方法在面对标注不确定性时的不足,以及单一标注者评估实践的脆弱性。
无分类器引导(CFG)通过融合条件预测与无条件预测,显著提升了生成模型的可控性。然而,标准CFG通常采用静态的无条件输入,这在模型不确定性动态变化的迭代生成过程中可能并非最优。我们提出自适应无分类器引导(A-CFG),这是一种新颖的方法,它利用模型的即时预测置信度来定制无条件输入。在迭代(掩码)扩散语言模型的每一步,A-CFG识别当前生成序列中模型置信度较低的词元。这些词元会被临时重新掩码,以创建动态的、局部化的无条件输入。这使CFG的纠正作用精准聚焦于模糊区域,从而实现更有效的引导。我们将A-CFG集成到最先进的掩码扩散语言模型中,并验证了其有效性。在多种语言生成基准测试上的实验表明,A-CFG相较于标准CFG带来了显著提升,例如在GPQA上取得了3.9分的增益。我们的工作凸显了在迭代生成中根据模型不确定性动态调整引导机制的优势。
大型语言模型(LLMs)在问答(QA)任务中展现了卓越的性能,这得益于其在自然语言理解和生成方面的强大能力。然而,基于LLM的QA在处理复杂QA任务时仍面临挑战,包括推理能力不足、知识陈旧以及产生幻觉等问题。近期多项研究尝试将LLMs与知识图谱(KGs)结合用于QA,以应对上述挑战。在本综述中,我们提出了一种新的结构化分类法,根据QA的类别以及KG在与LLMs整合时的角色,对LLMs与KGs结合用于QA的方法进行了分类。我们系统地调研了LLMs与KGs结合用于QA的最新进展,并从优势、局限性和KG需求等方面对这些方法进行了比较与分析。随后,我们将这些方法与QA任务对齐,并探讨了它们如何解决不同复杂QA的主要挑战。最后,我们总结了相关进展、评估指标和基准数据集,并指出了开放性的挑战与机遇。