每日精选AI研究论文及翻译
本文提出了一种新颖的学习范式,称为链式模型(Chain-of-Model, CoM),该范式将因果关系以链式结构融入每一层的隐藏状态中,从而在模型训练中引入了显著的扩展效率,并在部署时提供了灵活的推理能力。我们引入了链式表示(Chain-of-Representation, CoR)的概念,将每一层的隐藏状态在隐藏维度层面表述为多个子表示(即链)的组合。在每一层中,输出表示中的每条链仅能查看输入表示中所有先前的链。因此,基于CoM框架构建的模型能够通过在前序模型(即链)基础上增加链来逐步扩展模型规模,并通过使用不同数量的链提供多种不同大小的子模型,实现弹性推理。基于这一原理,我们设计了链式语言模型(Chain-of-Language-Model, CoLM),将CoM的思想融入Transformer架构的每一层。在CoLM的基础上,我们进一步引入了CoLM-Air,通过引入KV共享机制,在第一条链中计算所有键和值,并在所有链之间共享。这一设计展示了额外的扩展性,例如实现无缝语言模型切换、预填充加速等功能。实验结果表明,我们的CoLM系列模型能够达到与标准Transformer相当的性能,同时提供了更大的灵活性,例如通过逐步扩展提高训练效率,并提供多种不同大小的模型用于弹性推理,为构建语言模型开辟了一条新途径。我们的代码将在未来发布于:https://github.com/microsoft/CoLM。
近期,大型推理模型通过采用类人的深度思考方式,在各种任务上取得了令人瞩目的表现。然而,冗长的思考过程显著增加了推理开销,使得效率成为关键瓶颈。在本研究中,我们首先证明,对于相对简单的任务,NoThinking(即提示推理模型跳过思考直接生成最终解决方案)在性能和效率上都是更优的选择。受此启发,我们提出了AdaptThink,一种新颖的强化学习算法,旨在教导推理模型根据问题难度自适应选择最优的思考模式。具体而言,AdaptThink包含两大核心组件:(1) 一个约束优化目标,鼓励模型在保持整体性能的同时选择NoThinking;(2) 一种重要性采样策略,在策略训练过程中平衡Thinking与NoThinking样本,从而实现冷启动,并让模型在训练过程中探索和利用两种思考模式。实验结果表明,AdaptThink显著降低了推理成本,同时进一步提升了性能。值得注意的是,在三个数学数据集上,AdaptThink将DeepSeek-R1-Distill-Qwen-1.5B的平均响应长度减少了53%,并使其准确率提高了2.4%,这凸显了自适应思考模式选择在优化推理质量与效率平衡方面的潜力。我们的代码和模型已发布于https://github.com/THU-KEG/AdaptThink。
大型语言模型(LLMs)展现了卓越的能力,但在处理需要复杂推理的任务时常常面临挑战。尽管链式思维(CoT)提示显著增强了推理能力,但它不加区分地为所有查询生成长篇推理步骤,导致巨大的计算成本和效率低下,尤其对于较简单的输入。为解决这一关键问题,我们引入了自适应链式思维(AdaCoT),这一新颖框架使LLMs能够自适应地决定何时调用CoT。AdaCoT将自适应推理视为一个帕累托优化问题,旨在平衡模型性能与CoT调用相关的成本(包括频率和计算开销)。我们提出了一种基于强化学习(RL)的方法,特别是利用近端策略优化(PPO),通过调整惩罚系数动态控制CoT触发决策边界,从而使模型能够根据隐含的查询复杂度判断CoT的必要性。一个关键技术贡献是选择性损失掩码(SLM),旨在防止多阶段RL训练期间决策边界崩溃,确保自适应触发机制的稳健性和稳定性。实验结果表明,AdaCoT成功地在帕累托前沿上导航,对于不需要复杂推理的查询,大幅减少了CoT的使用。例如,在我们的生产流量测试集上,AdaCoT将CoT触发率降低至3.18%,并减少了69.06%的平均响应令牌数,同时在复杂任务上保持了高性能。
具备扩展思维链推理能力的推理语言模型,在处理需要复杂逻辑推断的任务时,已展现出卓越性能。然而,对所有查询均采用精细推理往往导致显著的运算效率低下,尤其是在许多问题本身存在直接解决方案的情况下。这引发了一个开放性问题:大型语言模型(LLMs)能否学会何时进行深度思考?为解答此问题,我们提出了“Thinkless”,一个可学习的框架,使LLM能够根据任务复杂度及模型自身能力,自适应地选择简短或详细推理模式。Thinkless在强化学习范式下训练,并采用两个控制标记:<short>用于简洁回答,<think>则指示详细推理。我们方法的核心在于一种解耦的组相对策略优化算法(DeGRPO),该算法将混合推理的学习目标分解为两部分:(1)控制标记损失,负责推理模式的选择;(2)响应损失,旨在提升生成答案的准确性。这种解耦设计实现了对各自目标贡献的精细控制,稳定了训练过程,有效避免了传统GRPO中观察到的崩溃现象。实证研究表明,在Minerva Algebra、MATH-500及GSM8K等多个基准测试中,Thinkless能够将长链思维的使用减少50%至90%,显著提升了推理语言模型的效率。代码已发布于https://github.com/VainF/Thinkless。
Transformer的注意力机制具有二次复杂度,导致长序列推理时的高成本和延迟。然而,注意力矩阵大多稀疏,这意味着许多计算项可被省略以实现高效推理。稀疏注意力推理方法旨在减轻这一计算负担,但同时也伴随着性能下降的困扰。我们发现,性能下降的一个原因是稀疏计算引发了注意力输出的分布偏移。这种分布偏移导致解码阶段的查询无法与预填充阶段的相应键良好对齐,从而造成性能下降。我们提出了一种简单、新颖且有效的方法来纠正这种分布偏移,使稀疏注意力输出的分布更接近二次注意力的分布。我们的方法可应用于任何稀疏注意力方法之上,在131K RULER基准测试中,当应用于带汇聚标记的滑动窗口注意力之上时,平均带来36%的性能提升,恢复了88%的二次注意力准确率,同时仅增加了少量开销。我们的方法能保持约98.5%的稀疏度,相较于全二次注意力,在处理100万标记的预填充时,使模型速度比Flash Attention 2快32倍。
图形用户界面(GUI)的语义理解能力,即将自然语言指令映射到图形用户界面上具体操作的能力,仍然是计算机使用代理开发中的关键瓶颈。现有基准测试将语义理解任务过度简化为简短的指代表达,未能捕捉到现实交互中所需的软件常识、布局理解及精细操作能力的复杂性。为应对这些局限,我们推出了OSWorld-G,一个包含564个精细标注样本的全面基准测试,涵盖文本匹配、元素识别、布局理解及精确操作等多种任务类型。此外,我们合成并发布了最大的计算机使用语义理解数据集Jedi,通过任务的多视角解耦,包含了400万个示例。在Jedi上训练的多尺度模型,在ScreenSpot-v2、ScreenSpot-Pro及我们的OSWorld-G上均超越了现有方法,证明了其有效性。更进一步,我们展示了利用Jedi提升的语义理解能力,直接增强了通用基础模型在复杂计算机任务上的代理能力,在OSWorld上的表现从5%提升至27%。通过详尽的消融研究,我们识别了影响语义理解性能的关键因素,并验证了结合针对不同界面元素的专门数据,能够实现对新界面的组合泛化。所有基准测试、数据、检查点及代码均已开源,可在https://osworld-grounding.github.io获取。
模型融合作为一种提升大规模语言模型性能的有前景技术,尽管其在大规模预训练中的应用仍相对未被充分探索。本文深入研究了预训练过程中的模型融合技术。通过对从数百万到超过1000亿参数的密集架构和专家混合(MoE)架构进行广泛实验,我们证明了使用恒定学习率训练的检查点进行融合不仅能显著提升性能,还能准确预测退火行为。这些改进既带来了更高效的模型开发,也大幅降低了训练成本。我们对融合策略和超参数的详细消融研究为理解其内在机制提供了新见解,同时揭示了新颖的应用场景。通过全面的实验分析,我们为开源社区提供了实用的预训练指南,以实现有效的模型融合。
视频扩散变换器(DiTs)的扩展受限于其二次方的三维注意力机制,尽管大部分注意力质量集中在少数位置上。基于这一观察,我们提出了VSA(可训练的硬件高效稀疏注意力),它在训练和推理阶段均替代了全注意力机制。在VSA中,一个轻量级的粗粒度阶段将令牌池化为区块并识别出高权重关键令牌;细粒度阶段则仅在这些区块内部计算令牌级注意力,同时遵循块计算布局以确保硬件效率。这形成了一个可端到端训练的单次可微核,无需事后分析,并保持了FlashAttention3 MFU的85%。我们通过从6000万到14亿参数的DiTs预训练,进行了广泛的消融实验和扩展定律研究。VSA达到了一个帕累托点,将训练浮点运算次数减少了2.53倍,且扩散损失无下降。对开源Wan-2.1模型进行改造后,注意力时间加速了6倍,端到端生成时间从31秒缩短至18秒,且质量相当。这些结果确立了可训练稀疏注意力作为全注意力实用替代方案的地位,并成为视频扩散模型进一步扩展的关键推动力。
在人工智能研究中,衡量图像的真实性是一项复杂任务。例如,一张描绘男孩在沙漠中使用吸尘器的图片就违背了常识。我们提出了一种名为“镜中窥真”(Through the Looking Glass, TLG)的新方法,利用大型视觉-语言模型(LVLMs)和基于Transformer的编码器来评估图像的常识一致性。通过LVLMs从图像中提取原子事实,我们获得了一系列准确的事实集合。随后,我们在编码后的原子事实上微调了一个紧凑的注意力池化分类器。我们的TLG方法在WHOOPS!和WEIRD数据集上实现了新的最先进性能,同时仅依赖于一个紧凑的微调组件。
动态3D场景重建领域的最新进展已展现出令人瞩目的成果,实现了具有更高时间一致性的高保真3D新视角合成。其中,4D高斯泼溅(4DGS)因其能够精准建模高保真的空间与时间变化而成为一种颇具吸引力的方法。然而,现有技术因在静态区域冗余分配4D高斯而面临显著的计算与内存开销,这还可能降低图像质量。本研究中,我们提出了混合3D-4D高斯泼溅(3D-4DGS)这一创新框架,它自适应地采用3D高斯表示静态区域,同时保留4D高斯用于动态元素。我们的方法始于一个完全的4D高斯表示,并迭代地将时间不变的高斯转换为3D,大幅减少了参数数量并提升了计算效率。与此同时,动态高斯保持其完整的4D表示,以高保真度捕捉复杂运动。与基线4D高斯泼溅方法相比,我们的方法在保持或提升视觉质量的同时,显著缩短了训练时间。
推理能力作为人类智能的核心组成部分,在追求通用人工智能(AGI)的过程中,对大型语言模型(LLMs)仍构成重大挑战。尽管在训练规模定律下模型性能有所提升,但在训练算法方面仍存在显著挑战,如灾难性遗忘及新颖训练数据的有限可用性。作为一种替代方案,测试时扩展通过增加测试时计算而不更新参数来提升推理性能。不同于此前专注于标记空间的同类方法,我们提出利用潜在空间以实现更有效的推理,并更好地遵循测试时扩展定律。我们引入了LatentSeek,一个新颖的框架,通过在模型潜在空间内进行测试时实例级适应(TTIA)来增强LLM的推理能力。具体而言,LatentSeek利用策略梯度,在自我生成奖励信号的指导下,迭代更新潜在表示。LatentSeek在包括GSM8K、MATH-500和AIME2024在内的多种推理基准上,跨越多个LLM架构进行了评估。结果显示,LatentSeek持续超越如思维链提示和基于微调的方法等强基线。此外,我们的分析表明,LatentSeek效率极高,对于中等复杂度问题通常能在几次迭代内收敛,同时还能从额外迭代中获益,从而凸显了潜在空间中测试时扩展的潜力。这些发现确立了LatentSeek作为一种轻量级、可扩展且有效的解决方案,用于增强LLM的推理能力。
尽管多模态大语言模型(MLLMs)在视觉-语言理解方面取得了显著进展,但在处理复杂的多步推理时仍面临挑战,常常产生逻辑不一致或部分正确的解决方案。一个关键限制在于缺乏对中间推理步骤的细粒度监督。为解决这一问题,我们提出了MM-PRM,这是一个在全自动化、可扩展框架下训练的过程奖励模型。我们首先构建了MM-Policy,一个在多样化数学推理数据上训练的强大多模态模型。随后,我们创建了MM-K12,一个包含10,000道带有可验证答案的多模态数学问题的精选数据集,作为种子数据。利用基于蒙特卡洛树搜索(MCTS)的流程,我们生成了超过70万步的注释,无需人工标注。由此得到的PRM用于在Best-of-N推理设置中对候选推理路径进行评分,并在领域内(MM-K12测试集)和领域外(如OlympiadBench、MathVista等)基准测试中均实现了显著提升。进一步分析证实了软标签、较小学习率以及路径多样性在优化PRM性能方面的有效性。MM-PRM证明了过程监督是增强多模态推理系统逻辑鲁棒性的有力工具。我们已在https://github.com/ModalMinds/MM-PRM上公开了所有代码和数据。
近期,基于规则的强化学习(RL)在提升语言模型(LM)的推理能力方面取得了显著进展,尤其是通过引入基于规则的奖励机制。然而,现有的RL方法——如GRPO、REINFORCE++和RLOO——常面临训练不稳定的问题,其中大幅度的策略更新和不恰当的裁剪可能导致训练崩溃。为解决这一难题,我们提出了带策略漂移约束的裁剪策略梯度优化算法(CPGD),这是一种旨在稳定语言模型策略学习的新颖算法。CPGD通过基于KL散度的策略漂移约束动态调节策略更新,并利用对数比率的裁剪机制来防止策略更新过度。我们为CPGD提供了理论依据,并通过实证分析证明其有效缓解了先前方法中观察到的不稳定性。此外,研究表明,CPGD在保持训练稳定性的同时,显著提升了性能表现。我们的实现兼顾了理论严谨性与实际可用性,为语言模型的后训练阶段提供了一种稳健的RL替代方案。代码已发布于https://github.com/ModalMinds/MM-EUREKA。
大型语言模型(LLMs)推动了显著进展,但其不断增长的参数量和上下文窗口带来了高昂的计算、能源和资金成本。我们引入EfficientLLM,这是一个新颖的基准测试,也是首个全面评估大规模LLM效率技术的实证研究。研究在一个生产级集群(48xGH200,8xH200 GPU)上进行,系统地探索了三个关键维度:(1) 架构预训练(高效注意力变体:MQA、GQA、MLA、NSA;稀疏专家混合模型(MoE)),(2) 微调(参数高效方法:LoRA、RSLoRA、DoRA),以及(3) 推理(量化方法:int4、float16)。我们定义了六个细粒度指标(内存利用率、计算利用率、延迟、吞吐量、能耗、压缩率)以捕捉硬件饱和度、延迟-吞吐量平衡和碳成本。通过评估超过100个模型-技术组合(0.5B-72B参数),我们得出三个核心见解:(i) 效率涉及可量化的权衡:没有单一方法普遍最优;例如,MoE减少了FLOPs并提高了准确性,但增加了40%的VRAM,而int4量化将内存/能耗降低了最多3.9倍,但准确性下降了3-5%。(ii) 最优解取决于任务和规模:MQA在受限设备上提供了最佳的内存-延迟权衡,MLA在质量关键任务中实现了最低的困惑度,而RSLoRA仅在超过14B参数时才超越LoRA的效率。(iii) 技术跨模态通用:我们将评估扩展到大型视觉模型(Stable Diffusion 3.5、Wan 2.1)和视觉-语言模型(Qwen2.5-VL),确认了有效的可迁移性。通过开源数据集、评估管道和排行榜,EfficientLLM为研究人员和工程师在下一代基础模型的效率-性能权衡中提供了重要指导。
低秩适应(LoRA)通过在冻结的预训练权重中引入两个可训练低秩矩阵的乘积,被广泛用于联邦学习(FL)中语言模型的高效微调。然而,当与差分隐私随机梯度下降(DP-SGD)结合时,LoRA面临显著的噪声放大问题:DP-SGD扰动每个样本的梯度,而LoRA更新(BA)的矩阵乘法加剧了这一效应。冻结其中一个矩阵(如A)虽能减少噪声,但限制了模型的表达能力,往往导致次优的适应效果。为解决这一问题,我们提出了FedSVD,一种简单而有效的方法,基于奇异值分解(SVD)引入全局重参数化。在我们的方法中,每个客户端仅优化B矩阵并将其传输至服务器。服务器聚合这些B矩阵,利用先前的A计算BA乘积,并通过SVD对结果进行重构。这一过程生成一个新的自适应A,由BA的正交右奇异向量组成,以及一个包含剩余SVD分量的更新后的B。这种重参数化避免了二次噪声放大,同时使A能更好地捕捉聚合更新的主方向。此外,A的正交结构限制了B的梯度范数,并在DP-SGD下保留了更多信号,这一点已通过我们的理论分析得到证实。因此,FedSVD在各种隐私设置和基准测试中持续提升了稳定性和性能,在隐私和非隐私机制下均优于相关基线。
推理时缩放技术通过在不重新训练的情况下利用额外的计算资源,显著增强了大型语言模型(LLMs)的推理能力。同样,思维链(CoT)提示及其扩展形式——长思维链,通过生成丰富的中间推理轨迹来提高准确性,但这些方法带来了巨大的令牌成本,阻碍了其在延迟敏感场景中的部署。在本研究中,我们首先展示了截断式思维链,即在推理完成前停止并直接生成最终答案,往往能与完整思维链采样相媲美,同时大幅减少令牌使用。基于这一洞察,我们引入了分片采样,这是一种统一的推理时策略,它在完整思维链和仅解决方案采样之间沿三个正交轴进行插值:(1)推理轨迹的数量,(2)每条轨迹的最终解决方案数量,以及(3)推理轨迹被截断的深度。通过在五个多样化推理基准和多个模型规模上的广泛实验,我们证明了分片采样始终能实现更优的准确性与成本权衡,在Pass@k与令牌预算之间呈现出陡峭的对数线性缩放增益。我们的分析揭示了如何在这些维度上分配计算资源以最大化性能,为更高效、可扩展的LLM推理铺平了道路。
大型语言模型(LLMs)在面对不同输入提示(问题)时展现出不同程度的置信度:某些提示会引发一致且语义相近的回答,而另一些则产生多样甚至矛盾的输出。这种差异反映了LLM对输入提示的不确定性,是模型理解给定问题自信程度的重要信号。然而,传统的群体相对策略优化(GRPO)在策略更新过程中对所有提示一视同仁,忽视了这一关于模型知识边界的关键信息。为解决这一局限,我们提出了SEED-GRPO(语义熵增强型GRPO),它明确测量LLMs对输入提示语义熵的不确定性。语义熵衡量了给定提示下多个生成答案在意义上的多样性,并利用这一指标来调节策略更新的幅度。这种基于不确定性的训练机制能够根据问题的不确定性动态调整策略更新的幅度,使得在高不确定性问题上采取更为保守的更新策略,同时在自信问题上保持原有的学习信号。在五个数学推理基准测试(AIME24 56.7、AMC 68.7、MATH 83.4、Minerva 34.2和OlympiadBench 48.0)上的实验结果表明,SEED-GRPO在平均准确率上达到了新的最先进水平,验证了基于不确定性的策略优化的有效性。
大型视觉语言模型展现出处理多样化视觉感知任务的固有能力。本文中,我们介绍了VisionReasoner,一个能够在共享模型中推理并解决多种视觉感知任务的统一框架。具体而言,通过设计新颖的多目标认知学习策略和系统性的任务重构,VisionReasoner增强了其分析视觉输入的推理能力,并在统一框架内应对多样化的感知任务。该模型在响应用户查询输出所需结果之前,会生成结构化的推理过程。为了严格评估统一的视觉感知能力,我们在涵盖检测、分割和计数三个关键领域的十项多样化任务上对VisionReasoner进行了评估。实验结果显示,VisionReasoner作为统一模型表现出色,在COCO(检测)上相对Qwen2.5VL提升了29.1%,在ReasonSeg(分割)上提升了22.1%,在CountBench(计数)上提升了15.3%。
图表理解对大规模视觉语言模型(LVLMs)提出了独特挑战,因为它需要融合复杂的文本与视觉推理能力。然而,当前的LVLMs在这两种技能间存在显著失衡,尤其在难以通过文本实现的视觉推理方面表现欠佳。我们利用一个仅能通过视觉推理解决的合成数据集进行案例研究,发现随着视觉复杂度的增加,模型性能显著下降,而人类表现则保持稳健。随后,我们推出了ChartMuseum,这是一个全新的图表问答(QA)基准,包含1,162个专家标注的问题,涵盖多种推理类型,源自184个来源的真实世界图表,专门用于评估复杂的视觉与文本推理能力。与以往图表理解基准——其中前沿模型表现相近且接近饱和——不同,我们的基准揭示了模型与人类表现之间的巨大差距,同时有效区分了模型能力:尽管人类准确率达到93%,表现最佳的Gemini-2.5-Pro模型仅达到63.0%,领先的开源LVLM Qwen2.5-VL-72B-Instruct更是仅达到38.5%。此外,在主要依赖视觉推理的问题上,所有模型相较于文本推理为主的问题,性能下降了35%-55%。最后,我们的定性错误分析揭示了当前LVLMs在特定类别视觉推理上的挑战。
在检索增强生成(RAG)系统中,精准识别搜索意图仍是一个具有挑战性的目标,尤其是在资源受限及面对具有嵌套结构和依赖关系的复杂查询时。本文提出了QCompiler,一个受语言学语法规则和编译器设计启发的神经符号框架,旨在弥合这一差距。该框架理论上设计了一种最小化但充分的巴科斯-诺尔范式(BNF)语法G[q],用以形式化复杂查询。与以往方法不同,此语法在保持完整性的同时最大限度地减少了冗余。基于此,QCompiler集成了查询表达式翻译器、词法语法解析器及递归下降处理器,将查询编译为抽象语法树(ASTs)以供执行。叶子节点中子查询的原子性确保了更精确的文档检索与响应生成,显著提升了RAG系统处理复杂查询的能力。
将大型语言模型与符号规划器相结合,相较于自然语言规划,为获取可验证且基于实地的规划方案开辟了一条前景广阔的道路。近期研究进一步将这一理念扩展至视觉领域,运用视觉-语言模型(VLMs)实现。然而,由于缺乏统一的环境、评估协议及模型覆盖范围,VLM赋能的符号规划方法与直接利用VLM进行规划的方法之间,尚未能进行严谨比较。为此,我们推出了ViPlan,首个面向视觉规划的开源基准测试平台,它结合了符号谓词与VLMs。ViPlan包含两个领域内一系列难度递增的任务:经典积木世界规划问题的视觉变体及模拟家庭机器人环境。我们对九大家族开源VLM及部分闭源模型进行了多规模基准测试,既评估了VLM赋能的符号规划,也测试了模型直接提出行动方案的能力。研究发现,在精确图像定位至关重要的积木世界任务中,符号规划优于直接VLM规划;而在家庭机器人任务中,情况恰恰相反,常识知识与错误恢复能力显得更为重要。最后,我们指出,在大多数模型与方法中,采用思维链提示并未带来显著优势,这表明当前VLMs在视觉推理方面仍面临挑战。
奖励模型对于将语言模型输出与人类偏好对齐至关重要,然而现有方法往往缺乏可控性和可解释性。这些模型通常针对狭窄目标进行优化,限制了其在更广泛下游任务中的通用性。此外,其标量输出在没有上下文推理的情况下难以解释。为解决这些局限,我们引入了R3,一种新颖的奖励建模框架,它不受评分标准限制,能在多个评估维度上通用,并提供可解释、有理据的评分分配。R3支持对语言模型进行更透明、更灵活的评估,促进与多样化人类价值观和用例的稳健对齐。我们的模型、数据和代码已在https://github.com/rubricreward/r3开源提供。
我们提出SLED,一种创新的语音语言建模方法,通过将语音波形编码为连续潜在表示序列,并采用能量距离目标进行自回归建模。能量距离通过对比模拟样本与目标样本,提供了一种衡量分布差异的解析方法,从而实现了对底层连续自回归分布的高效捕捉。SLED绕过了对残差矢量量化的依赖,避免了离散化误差,并消除了现有语音语言模型中常见的复杂分层架构需求。它简化了整体建模流程,同时保留了语音信息的丰富性,并保持了推理效率。实证结果表明,SLED在零样本和流式语音合成中均展现出强劲性能,彰显了其在通用语音语言模型中更广泛应用的潜力。
近期大型语言模型(LLMs)的进展推动了自动化科学发现的愿景,常被称为AI协科学家。迄今为止,先前的研究将这些系统定位为生成性合著者,负责构思假设、整合代码或起草手稿。在本研究中,我们探索了一种互补应用:利用LLMs作为验证者,自动化科学手稿的学术验证。为此,我们引入了SPOT数据集,包含83篇已发表论文及其对应的91个足以引发勘误或撤稿的重大错误,这些错误已与实际作者和人工标注者进行了交叉验证。在SPOT上评估最先进的LLMs,我们发现无一模型能超越21.1%的召回率或6.1%的精确度(o3表现最佳,其余模型接近零)。此外,置信度估计普遍偏低,且在八次独立运行中,模型很少能重复发现相同错误,这削弱了其可靠性。最后,与领域专家的定性分析表明,即使是最强的模型也会犯下类似学生因误解而产生的错误。这些发现凸显了当前LLM能力与可靠AI辅助学术验证需求之间的显著差距。
人体图像动画因其在数字人领域的广泛应用而日益受到关注并迅速发展。然而,现有方法主要依赖二维渲染的姿态图像进行运动引导,这限制了泛化能力,并丢弃了开放世界动画中至关重要的三维信息。为解决这一问题,我们提出了MTVCrafter(运动标记化视频生成器),这是首个直接建模原始三维运动序列(即四维运动)的人体图像动画框架。具体而言,我们引入了4DMoT(四维运动标记器),将三维运动序列量化为四维运动标记。与二维渲染的姿态图像相比,四维运动标记提供了更稳健的时空线索,避免了姿态图像与角色之间严格的像素级对齐,实现了更灵活和分离的控制。随后,我们引入了MV-DiT(运动感知视频扩散变换器)。通过设计独特的运动注意力机制与四维位置编码,MV-DiT能够有效利用运动标记作为四维紧凑且富有表现力的上下文,在复杂的三维世界中进行人体图像动画。因此,这标志着该领域的一大进步,并为姿态引导的人体视频生成开辟了新方向。实验表明,我们的MTVCrafter以6.98的FID-VID分数取得了最先进的成果,比第二名高出65%。得益于强大的运动标记,MTVCrafter还能很好地泛化到各种开放世界角色(单个/多个,全身/半身)及多样风格和场景中。我们的视频演示和代码可在以下链接获取:https://github.com/DINGYANB/MTVCrafter。
图像生成模型已获得广泛应用。以TarFlow模型为例,它结合了Transformer架构与归一化流模型,在多个基准测试中取得了顶尖成果。然而,由于因果形式的注意力机制需要顺序计算,TarFlow的采样过程极为缓慢。本文展示,通过一系列优化策略,采用高斯-赛德尔-雅可比(简称GS-Jacobi)迭代方法,可大幅加速TarFlow采样。具体而言,我们发现TarFlow模型中的各模块重要性各异:少数模块在图像生成任务中起主导作用,而其他模块贡献较小;部分模块对初始值敏感,易发生数值溢出,而另一些则相对稳健。基于这两点特性,我们提出了收敛排序度量(CRM)和初始猜测度量(IGM):CRM用于判断TarFlow模块是“简单”(迭代次数少即收敛)还是“复杂”(需更多迭代);IGM则用于评估迭代初始值的好坏。在四个TarFlow模型上的实验表明,GS-Jacobi采样在保持生成图像质量(以FID衡量)的同时,显著提升了采样效率,在Img128cond、AFHQ、Img64uncond和Img64cond上分别实现了4.53倍、5.32倍、2.96倍和2.51倍的加速,且未降低FID分数或样本质量。代码和检查点可在https://github.com/encoreus/GS-Jacobi_for_TarFlow获取。
Tiny QA Benchmark++(TQB++)推出了一套超轻量级、多语言的冒烟测试套件,旨在为大型语言模型(LLM)管道提供一种单元测试风格的安全网数据集,该套件能在几秒内以极低成本完成运行。这一工具源于构建Comet Opik提示优化SDK时对快速反馈循环的需求,因为等待重量级基准测试会打断开发流程。TQB++结合了一个包含52项英语黄金标准的数据集(小于20 kB)和一个基于与提供商无关的LiteLLM构建的微型合成数据生成器PyPI包。该生成器使从业者能够以任何语言、领域或难度创建自己的微型数据集包,同时已提供了涵盖阿拉伯语、中文、法语、德语、日语、韩语、葡萄牙语、俄语、西班牙语和土耳其语的十个现成数据包。每个数据集都附带了Croissant元数据以及即插即用的文件,适用于OpenAI-Evals、LangChain和标准CI工具,因此团队可以直接将确定性微基准测试集成到拉取请求门控、提示工程循环和生产仪表板中,而无需触及GPU预算。完整的TQB++运行仅增加管道延迟几秒钟,却能可靠地标记出提示模板错误、分词器漂移和微调副作用,远在MMLU或BIG-Bench等大规模测试套件完成配置之前。整个框架的发布旨在加速生成式AI生态系统中持续且资源高效的质量保证进程。
医生和患者越来越多地利用大型语言模型(LLMs)来诊断临床病例。然而,与数学或编程等领域不同,这些领域的正确性可以通过最终答案客观定义,而医学诊断不仅要求结果准确,还要求推理过程无误。目前,广泛使用的医学基准测试如MedQA和MMLU仅评估最终答案的准确性,忽视了临床推理过程的质量与忠实度。为弥补这一不足,我们推出了MedCaseReasoning,这是首个开放获取的数据集,旨在评估LLMs与临床医生撰写的诊断推理保持一致的能力。该数据集包含14,489个诊断问答案例,每个案例均配有源自开放获取医学病例报告的详细推理说明。我们在MedCaseReasoning上评估了最先进的推理型LLMs,发现其在诊断和推理方面存在显著不足:例如,表现最佳的开源模型DeepSeek-R1仅达到48%的10-shot诊断准确率,且仅提及了64%的临床医生推理说明(召回率)。然而,我们证明,基于MedCaseReasoning的推理轨迹对LLMs进行微调,能显著提升诊断准确率和临床推理召回率,平均相对增益分别达到29%和41%。开源数据集、代码及模型可在https://github.com/kevinwu23/Stanford-MedCaseReasoning获取。
尽管视频生成技术取得了显著进展,但合成物理上合理的人类动作仍是一个持续存在的挑战,尤其是在建模细粒度语义和复杂时间动态方面。例如,生成诸如“转体0.5周的交换跳”这样的体操动作,对现有方法提出了巨大困难,往往导致不尽人意的结果。为弥合这一差距,我们提出了FinePhys,一个融合物理学的细粒度人体动作生成框架,旨在获得有效的骨骼引导。具体而言,FinePhys首先以在线方式估计2D姿态,随后通过上下文学习实现2D到3D的维度提升。为了缓解纯数据驱动3D姿态的不稳定性和有限可解释性,我们进一步引入了一个基于物理的运动重估计模块,该模块由欧拉-拉格朗日方程控制,通过双向时间更新计算关节加速度。物理预测的3D姿态随后与数据驱动的姿态融合,为扩散过程提供多尺度2D热图指导。在FineGym的三个细粒度动作子集(FX-JUMP、FX-TURN和FX-SALTO)上的评估显示,FinePhys显著超越了竞争基线。全面的定性结果进一步证明了FinePhys在生成更自然、更合理的细粒度人体动作方面的能力。
测试时扩展(Test-Time Scaling, TTS)指的是在推理阶段通过分配额外计算资源来提升推理性能的方法,而无需改变模型参数。现有的TTS方法通常在离散的token空间中操作,通过生成更多的中间步骤来提升性能。然而,近期在Coconut和SoftCoT中的研究表明,在连续的潜在空间中进行思考能够进一步强化推理表现。这类潜在思维编码了信息丰富的思考过程,避免了自回归token生成带来的信息损失,从而激发了人们对连续空间推理的浓厚兴趣。与离散解码不同,后者通过重复采样探索多样化的推理路径,而连续空间中的潜在表示对于给定输入是固定的,这限制了多样化的探索,因为所有解码路径都源自同一潜在思维。为了克服这一局限,我们提出了SoftCoT++,将SoftCoT扩展至测试时扩展范式,实现了对思维路径的多样化探索。具体而言,我们通过多个专用初始token扰动潜在思维,并应用对比学习以促进软思维表示之间的多样性。在五个推理基准和两种不同的大语言模型架构上的实验表明,SoftCoT++显著提升了SoftCoT的性能,并且也超越了采用自一致性扩展的SoftCoT。此外,它展现了与传统扩展技术如自一致性的良好兼容性。源代码可在https://github.com/xuyige/SoftCoT获取。
视频扩散模型(DMs)已实现高质量视频合成。然而,其巨大的计算和内存需求对实际部署构成了严峻挑战,即便在高性能GPU上也是如此。作为普遍采用的解决方案,量化在降低图像DMs成本方面已取得显著成功,但其直接应用于视频DMs却效果不佳。本文提出QVGen,一种专为高性能且推理高效的视频DMs设计的量化感知训练(QAT)框架,适用于极低比特量化(如4位或更低)。我们首先通过理论分析表明,降低梯度范数对于促进QAT的收敛至关重要。为此,我们引入辅助模块(Phi)以减少大量化误差,从而显著提升收敛性。为消除Phi的推理开销,我们提出了一种秩衰减策略,逐步淘汰Phi。具体而言,我们反复运用奇异值分解(SVD)及提出的基于秩的正则化因子gamma,以识别并衰减贡献较低的成分。该策略在保持性能的同时,消除了推理开销。在涵盖1.3B至14B参数规模的4种最先进(SOTA)视频DMs上的广泛实验表明,QVGen是首个在4位设置下达到全精度可比质量的方法。此外,它显著优于现有方法。例如,我们的3位CogVideoX-2B在VBench上的动态度(Dynamic Degree)和场景一致性(Scene Consistency)分别提升了+25.28和+8.43。
近年来,大型推理模型(LRMs)如OpenAI-o1和DeepSeek-R1的出现,在解决复杂问题(如数学和编程)方面展现了令人瞩目的能力。一些开创性研究尝试将LRMs的成功应用于神经机器翻译(MT)领域,通过强化学习(RL)构建具备深度推理能力的MT模型。尽管已取得一定进展,但这些尝试主要集中于几种高资源语言(如英语和汉语),对其他语言的表现尚不明确。此外,先前工作中的奖励建模方法未能充分发挥强化学习在MT中的潜力。在本研究中,我们首先设计了一种新的奖励建模方法,该方法将策略MT模型的翻译结果与强大的LRM(即DeepSeek-R1-671B)进行比较,并将比较结果量化以提供奖励。实验结果表明,该奖励建模方法具有显著优势。以Qwen2.5-7B-Instruct为骨干,训练后的模型在文学翻译中达到了新的最先进水平,并超越了包括OpenAI-o1和DeepSeek-R1在内的强大LRMs。进一步,我们将该方法扩展至包含11种语言的多语言场景。通过精心设计的轻量级RL奖励建模,我们能够将强大的MT能力从单一方向简单迁移至多个(即90个)翻译方向,实现了令人印象深刻的多语言MT性能。
数字病理学(DP)领域的最新进展,尤其是通过人工智能和基础模型的应用,凸显了大规模、多样化且标注丰富的数据集的重要性。尽管这些数据集至关重要,但公开可用的全切片图像(WSI)数据集往往在规模、组织多样性及全面的临床元数据方面存在不足,限制了AI模型的鲁棒性和泛化能力。为此,我们推出了HISTAI数据集,这是一个大型、多模态、开放访问的WSI集合,包含来自多种组织类型的超过60,000张切片。HISTAI数据集中的每个病例均附有详尽的临床元数据,涵盖诊断、人口统计信息、详细的病理学标注以及标准化的诊断编码。该数据集旨在填补现有资源中的空白,推动创新、可重复性以及临床相关计算病理学解决方案的发展。数据集可通过https://github.com/HistAI/HISTAI访问。
偏好数据集对于通过人类反馈强化学习(RLHF)训练通用领域、遵循指令的语言模型至关重要。随着每次新数据的发布,对未来数据收集的期望也随之提高,这意味着持续提升公开可用偏好数据的质量和多样性成为必然需求。为应对这一需求,我们推出了HelpSteer3-Preference,这是一个采用宽松许可(CC-BY-4.0)的高质量、人工标注的偏好数据集,包含超过40,000个样本。这些样本涵盖了大型语言模型(LLMs)在现实世界中的多样化应用,包括STEM、编程及多语言场景相关任务。利用HelpSteer3-Preference,我们训练了奖励模型(RMs),在RM-Bench(82.4%)和JudgeBench(73.7%)上取得了顶尖性能,相较于现有RMs的最佳报告结果实现了显著提升(约10%绝对提升)。我们展示了HelpSteer3-Preference同样适用于训练生成式RMs,并说明了如何利用我们的RMs通过RLHF对齐策略模型。数据集(CC-BY-4.0)地址:https://huggingface.co/datasets/nvidia/HelpSteer3#preference。
人机交互领域长期以来一直憧憬着能够理解我们的技术——从我们的偏好和习惯,到日常行为的时间安排与目的。然而,当前的用户模型仍显碎片化,局限于特定应用程序,缺乏实现这些愿景所需的灵活推理能力。本文提出了一种通用用户模型(GUM)的架构,该模型通过观察用户与计算机的任何互动来学习用户信息。GUM以用户的无结构化观察数据(如设备截图)为输入,构建出捕捉用户知识与偏好的置信度加权命题。例如,GUM能从用户与朋友的交流中推断出用户正在筹备参加的婚礼,或通过观察到多次编辑停滞及转向阅读相关文献,识别出用户正因合作者对草稿的反馈而困扰。GUM引入了一种架构,能够从多模态观察中推断出关于用户的新命题,检索相关命题以提供上下文,并持续修订现有命题。为了展示GUM支持的广泛应用,我们演示了其如何为基于聊天的助手增添上下文,管理操作系统通知以选择性呈现重要信息,以及实现跨应用偏好自适应的交互式代理。我们还实例化了主动助手(GUMBOs),它们利用GUM发现并代表用户执行有益建议。在评估中,我们发现GUM能对用户做出校准准确且精确的推断,基于GUM构建的助手能主动识别并执行用户未曾明确请求的操作。总而言之,GUM引入的方法利用多模态模型理解无结构化上下文,不仅实现了人机交互的长期愿景,还催生了能够预见用户需求的崭新交互系统。
同形异义词消歧在字素到音素(G2P)转换中仍是一个重大挑战,尤其对于资源匮乏的语言而言。这一挑战具有双重性:(1)构建平衡且全面的同形异义词数据集既费时又成本高昂;(2)特定的消歧策略会引入额外延迟,使其不适用于屏幕阅读器等实时辅助技术应用。本文针对这两个问题提出了解决方案。首先,我们设计了一个半自动化的流程来构建专注于同形异义词的数据集,并介绍了通过该流程生成的HomoRich数据集,通过将其应用于提升波斯语最先进的深度学习G2P系统,验证了其有效性。其次,我们倡导一种范式转变——利用丰富的离线数据集来指导开发适用于对延迟敏感的辅助应用(如屏幕阅读器)的快速、基于规则的方法。为此,我们将最著名的基于规则的G2P系统eSpeak改进为一个快速识别同形异义词的版本,即HomoFast eSpeak。实验结果显示,无论是深度学习系统还是eSpeak系统,在同形异义词消歧准确率上均实现了约30%的提升。
远古穴居人依靠手势、发声及简单信号来协调行动、制定计划、躲避捕食者并共享资源。如今,人类借助复杂语言合作,取得了非凡成就。是什么推动了这种交流方式的演变?语言如何产生、适应并成为团队协作的关键?理解语言的起源仍是一项挑战。语言学与人类学中的一个主流假说认为,语言的发展是为了满足早期人类合作的生态与社会需求。语言并非孤立产生,而是源于共同的生存目标。受此观点启发,我们在多智能体觅食游戏中探究了语言的涌现。这些环境设计旨在反映被认为影响交流进化的认知与生态限制。智能体在一个共享的网格世界中运作,仅对其他智能体及环境拥有部分了解,必须协调一致以完成诸如收集高价值目标或执行时序性动作等游戏任务。通过端到端的深度强化学习,智能体从零开始学习行动与交流策略。我们发现,智能体发展出的交流协议具有自然语言的标志性特征:任意性、可互换性、位移性、文化传递性及组合性。我们量化了每一特性,并分析了不同因素(如群体规模与时间依赖性)如何塑造涌现语言的具体方面。我们的框架为研究语言如何从部分可观测性、时序推理及具身多智能体环境中的合作目标中演化提供了一个平台。我们将公开所有数据、代码及模型。
训练高性能的小型语言模型(SLMs)仍然成本高昂,即便采用从大型教师模型进行知识蒸馏和剪枝的方法。现有工作常面临三大挑战:(1)硬剪枝导致的信息丢失,(2)表示对齐效率低下,(3)信息激活(尤其是前馈网络FFN的激活)利用不足。为解决这些问题,我们提出了低秩克隆(Low-Rank Clone, LRC),一种高效的预训练方法,旨在构建与强大教师模型行为等效的SLMs。LRC通过训练一组低秩投影矩阵,既实现了通过压缩教师权重进行软剪枝,又通过将学生激活(包括FFN信号)与教师对齐来完成激活克隆。这一统一设计在最大化知识转移的同时,省去了显式对齐模块的需求。利用开源教师模型(如Llama-3.2-3B-Instruct、Qwen2.5-3B/7B-Instruct)进行的广泛实验表明,LRC在仅使用200亿令牌的情况下,匹配甚至超越了基于数万亿令牌训练的最先进模型,实现了超过1000倍的训练效率。我们的代码和模型检查点可在https://github.com/CURRENTF/LowRankClone 和 https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf 获取。
在安全文本中准确识别对抗技术对于有效的网络防御至关重要。然而,现有方法面临一个根本性的权衡:它们要么依赖于领域精度有限的通用模型,要么需要资源密集型的处理流程,这些流程依赖于大量标注数据集和任务特定的优化,如自定义硬负样本挖掘和去噪,而这些资源在专业领域中往往难以获取。 我们提出了TechniqueRAG,一个特定领域的检索增强生成(RAG)框架,通过整合现成的检索器、指令调优的大型语言模型(LLMs)以及少量的文本-技术对,弥合了这一差距。我们的方法通过在有限的领域内示例上仅微调生成组件,解决了数据稀缺问题,从而避免了资源密集型的检索训练需求。虽然传统的RAG通过结合检索和生成来缓解幻觉问题,但其对通用检索器的依赖常常引入噪声候选,限制了领域特定的精度。为了解决这一问题,我们通过零样本LLM重排序来提升检索质量和领域特异性,明确地将检索到的候选与对抗技术对齐。 在多个安全基准测试上的实验表明,TechniqueRAG无需广泛的任务特定优化或标注数据即可实现最先进的性能,同时全面的分析提供了更深入的见解。
图像信号处理器(ISP)是现代智能手机相机中的核心组件,负责将RAW传感器图像数据转换为RGB图像,并着重于提升感知质量。近期研究凸显了深度学习方法在捕捉细节方面的潜力,其质量正日益接近专业相机水平。然而,在开发可学习ISP的过程中,获取像素级对齐的配对数据——即从智能手机相机传感器捕获的RAW图像映射到高质量参考图像——是一个既困难又昂贵的步骤。本研究中,我们针对这一挑战提出了一种新颖的可学习ISP训练方法,该方法无需RAW图像与内容匹配的真实数据之间的直接对应关系。我们的无配对方法采用了一种多项目标损失函数,通过对抗训练引导,利用多个判别器处理来自预训练网络的特征图,以在学习目标RGB数据集的色彩和纹理特征的同时保持内容结构。我们以适用于移动设备的轻量级神经网络架构为骨干,在苏黎世RAW到RGB和富士UltraISP数据集上评估了我们的方法。与配对训练方法相比,我们的无配对学习策略展现出强大的潜力,并在多项评估指标上实现了高保真度。代码及预训练模型已发布于https://github.com/AndreiiArhire/Learned-Lightweight-Smartphone-ISP-with-Unpaired-Data。
在复杂科学与技术文档中识别细微的技术错误,尤其是那些需要多模态解读(如图像中的公式)的情况,对大型语言模型(LLMs)构成了重大挑战,因其固有的纠错倾向可能掩盖不准确性。本探索性概念验证(PoC)研究基于持久工作流提示(PWP)原则,探讨了结构化LLM上下文调节作为一种方法论策略,在推理时调控LLM行为。该方法旨在提升现成通用LLM(特别是Gemini 2.5 Pro和ChatGPT Plus o3)在精确验证任务中的可靠性,关键之处在于仅依赖其标准聊天界面,无需API访问或模型修改。为探索此方法,我们聚焦于验证一份包含已知文本与图像错误的复杂测试论文中的化学公式。评估了多种提示策略:基础提示被证明不可靠,而采用PWP结构严格调节LLM分析思维的方法,则似乎提高了两种模型对文本错误的识别能力。值得注意的是,该方法还引导Gemini 2.5 Pro多次识别出先前人工审查中忽略的基于图像的公式细微错误,而ChatGPT Plus o3在我们的测试中未能完成此任务。这些初步发现揭示了阻碍细节导向验证的特定LLM操作模式,并表明基于PWP的上下文调节为开发更稳健的LLM驱动分析工作流提供了一种有前景且高度可及的技术,尤其适用于需要在科学与技术文档中细致检测错误的任务。超越此有限PoC的广泛验证对于确定其更广泛的适用性至关重要。
本研究探讨了将大型语言模型(LLMs)作为自主代理应用于现实世界任务,包括自由职业软件开发。我们提出了一种新的基准测试,该测试基于经济数据衍生的自由职业编程和数据分析任务来评估LLMs。我们利用Kaggle自由职业者数据集中的职位发布信息构建了该基准,所有职位价格均标准化为美元(固定项目价格中位数约为250,平均值为306)。每个任务都配有结构化的输入输出测试用例及预估价格标签,从而实现了自动化的正确性检查和货币化性能评估。这一方法受到OpenAI近期SWE-Lancer基准(包含1,400个总价值100万美元的真实Upwork任务)的启发,但我们的框架通过使用可编程测试的任务和预测价格值简化了评估流程,使其具备高度可扩展性和可重复性。在此基准上,我们评估了四种现代LLMs——Claude 3.5 Haiku、GPT-4o-mini、Qwen 2.5和Mistral。我们报告了每个模型的准确率(任务成功率和测试用例通过率)及其实现的“自由职业收入”(已解决任务价格的总和)。结果显示,Claude 3.5 Haiku表现最佳,收入约152万美元,紧随其后的是GPT-4o-mini,收入149万美元,然后是Qwen 2.5(133万美元)和Mistral(70万美元)。我们分析了每项任务的错误分布,发现最强模型能解决最多任务,且极少在任何项目上完全失败。我们讨论了这些结果对AI作为自由职业开发者可行性的启示,自动化基准测试方法的优势与局限,以及结构化任务表现与真实自由职业工作复杂性之间的差距。
科学论文的同行评审对大型语言模型(LLMs)构成了重大挑战,部分原因在于数据限制及专家推理的复杂性。本报告介绍了持久工作流提示(Persistent Workflow Prompting, PWP),这是一种可能广泛适用的提示工程方法,旨在利用标准LLM聊天界面(零代码、无需API)来弥合这一差距。我们展示了一个用于实验化学论文批判性分析的概念验证PWP提示,该提示采用层次化、模块化架构(通过Markdown结构化),定义了详细的分析工作流。我们通过迭代应用元提示技术和元推理,开发了这一PWP提示,旨在系统化编码专家评审工作流,包括隐性知识。在会话开始时提交一次,此PWP提示为LLM配备了持久工作流,由后续查询触发,引导现代推理LLM进行系统化、多模态评估。演示表明,PWP引导的LLM在测试案例中识别出主要方法缺陷,同时减轻了LLM输入偏差,并执行了复杂任务,包括区分主张与证据、整合文本/照片/图表分析以推断参数、执行定量可行性检查、将估计值与主张对比,以及评估先验合理性。为确保透明度并促进复现,我们提供了完整提示、详细演示分析及互动聊天日志作为补充资源。除具体应用外,本工作还深入探讨了元开发过程本身,强调了PWP在详细工作流形式化指导下,利用现成LLM进行复杂科学任务高级分析的潜力。