每日精选AI研究论文及翻译
基于可验证奖励的强化学习(RLVR)已成为提升大型语言模型(LLMs)推理能力的一种强大方法,但其机制尚未得到充分理解。本研究首次从标记熵模式的新视角对RLVR进行了开创性探索,全面分析了不同标记如何影响推理性能。通过考察链式思维(CoT)推理中的标记熵模式,我们发现仅有少量标记表现出高熵特性,这些标记作为关键分岔点,引导模型走向多样化的推理路径。进一步研究RLVR训练过程中熵模式的演变表明,RLVR在很大程度上遵循基础模型的熵模式,主要调整高熵标记的熵值。这些发现凸显了高熵标记(即分岔标记)对RLVR的重要性。我们最终通过将策略梯度更新限制在分岔标记上改进了RLVR,并揭示了一个超越80/20法则的发现:仅使用20%的标记,在Qwen3-8B基础模型上即可保持与全梯度更新相当的性能,并在Qwen3-32B(AIME'25上+11.04,AIME'24上+7.71)和Qwen3-14B(AIME'25上+4.79,AIME'24上+5.21)基础模型上显著超越全梯度更新,显示出强烈的扩展趋势。相比之下,仅对80%最低熵标记进行训练则导致性能显著下降。这些结果表明,RLVR的有效性主要源于优化决定推理方向的高熵标记。总体而言,我们的研究结果强调了通过标记熵视角理解RLVR的潜力,并利用高熵少数标记优化RLVR,从而进一步提升LLM的推理能力。
在大规模多模态数据集上预训练的视觉-语言模型(VLMs)蕴含了丰富的视觉与语言知识,为机器人技术奠定了坚实基础。近期研究不再从零开始训练机器人策略,而是将VLMs改造为视觉-语言-动作(VLA)模型,实现自然语言驱动的感知与控制。然而,现有的VLA模型通常规模庞大——参数数量常达数十亿——导致高昂的训练成本,限制了其在现实世界中的部署能力。此外,它们依赖学术与工业数据集,忽视了来自经济型机器人平台的社区收集数据日益增长的可用性。本研究中,我们提出了SmolVLA,一个轻量、高效且社区驱动的VLA模型,显著降低了训练与推理成本,同时保持了竞争力。SmolVLA设计为可在单GPU上训练,并部署于消费级GPU甚至CPU上。为进一步提升响应速度,我们引入了一种异步推理架构,将感知与动作预测与动作执行解耦,通过分块动作生成实现更高的控制频率。尽管体积小巧,SmolVLA在性能上可与规模大10倍的VLA模型相媲美。我们在模拟及真实世界的机器人基准测试中对SmolVLA进行了全面评估,并公开了所有代码、预训练模型及训练数据。
我们推出推理健身房(Reasoning Gym,简称RG),这是一个为强化学习提供可验证奖励的推理环境库。它包含超过100个数据生成器和验证器,涵盖代数、算术、计算、认知、几何、图论、逻辑及多种常见游戏等多个领域。其核心创新在于能够生成几乎无限且复杂度可调的训练数据,这与以往大多数固定不变的推理数据集形成鲜明对比。这种程序化生成方法使得我们能够在不同难度级别上进行持续评估。实验结果表明,RG在推理模型的评估与强化学习方面均展现出显著效果。
多模态大语言模型(MLLMs)在推理任务中展现出显著潜力,但在处理需要明确自我反思与自我修正的复杂问题时,仍显不足,尤其是在与单模态文本模型相比时。现有的反思方法过于简单,难以生成有意义且具指导性的反馈,因为预训练模型的推理能力和知识边界在初始训练阶段已基本固定。为应对这些挑战,我们提出了基于群体相对策略优化(GRPO)的多模态自我反思增强推理框架(SRPO),这是一个两阶段的反思感知强化学习(RL)框架,专门设计用于提升多模态大语言模型的推理能力。在第一阶段,我们在先进MLLM的指导下构建了一个高质量、聚焦反思的数据集,该数据集基于初始响应生成反思,以帮助策略模型学习推理与自我反思。在第二阶段,我们在GRPO框架内引入了一种新颖的奖励机制,鼓励简洁且认知上有意义的反思,同时避免冗余。通过在MathVista、MathVision、MathVerse及MMMU-Pro等多个多模态推理基准上的广泛实验,使用Qwen-2.5-VL-7B和Qwen-2.5-VL-32B模型,SRPO显著超越了现有最先进模型,在推理准确性和反思质量上均取得了显著提升。
大规模语言模型(LLMs)的训练因其庞大的规模和异构架构而面临挑战。尽管自适应优化器如AdamW有助于应对梯度变化,但在高效且有效的参数级学习率估计方面仍存在困难,导致训练不稳定、收敛速度慢以及与参数高效微调(PEFT)技术的兼容性差。本研究提出了基于梯度分组的缩放优化器(SGG),通过动态分组和组特定缩放来改进自适应学习率估计。SGG首先将每一层的梯度统计量分组为簇,然后应用簇特定缩放来校准每个参数的学习率,从而在保持精确的逐参数适应的同时,施加集体组级约束。在多种(M)LLM基准测试上的实验表明,SGG能够无缝集成现有优化器,并在不同模型规模下提供一致的性能提升和更快的收敛速度。其在不同批量大小和学习率下的稳定性,确立了SGG作为LLM优化的稳健选择。
近期,文本到视频扩散模型的进展已实现了高质量视频合成,但在有限数据和计算资源下的可控生成仍具挑战。现有的条件生成微调方法通常依赖外部编码器或架构修改,这需要大规模数据集,且通常局限于空间对齐的条件设置,限制了灵活性和可扩展性。本研究中,我们提出了时序上下文微调(Temporal In-Context Fine-Tuning, TIC-FT),一种高效且通用的方法,用于将预训练的视频扩散模型适配于多样化的条件生成任务。我们的核心思想是沿时间轴将条件帧与目标帧拼接,并插入噪声水平逐渐增加的中间缓冲帧。这些缓冲帧实现了平滑过渡,使微调过程与预训练模型的时序动态保持一致。TIC-FT无需改变模型架构,仅需10至30个训练样本即可实现强劲性能。我们在一系列任务上验证了该方法,包括图像到视频和视频到视频生成,使用了如CogVideoX-5B和Wan-14B等大规模基础模型。大量实验表明,TIC-FT在条件忠实度和视觉质量上均优于现有基线,同时在训练和推理过程中保持高效。更多结果,请访问https://kinam0252.github.io/TIC-FT/。
大型语言模型(LLMs)使得智能体能够通过自由形式的语言交互执行复杂的推理和决策。然而,在开放式的语言动作环境中(例如,谈判或提问游戏),动作空间可以被表述为基于词汇的联合分布,从而形成一个指数级庞大的动作空间。在此类空间中采样动作可能导致极端的奖励稀疏性,进而带来较大的奖励方差,阻碍有效的强化学习(RL)。为解决这一问题,我们提出了ARIA方法,即通过在意图空间聚合奖励来实现高效且有效的语言智能体训练。ARIA旨在将自然语言动作从高维的词汇联合分布空间映射到低维的意图空间,在此空间中,语义相似的动作被聚类并赋予共享奖励。这种基于意图的奖励聚合通过密集化奖励信号来减少奖励方差,促进更好的策略优化。大量实验表明,ARIA不仅显著降低了策略梯度方差,还在四项下游任务中平均带来了9.95%的性能提升,持续优于离线和在线RL基线方法。
现实世界中的具身智能体面临着长期任务,这些任务以高层次目标为特征,需要超越单一动作的多步骤解决方案。要成功应对这些任务,既需要高层次的任务规划(即将目标分解为子任务),也需要低层次的运动控制(即生成精确的机器人动作)。尽管现有的视觉语言动作(VLA)模型和分层架构在具身任务中展现出潜力,但前者常在规划上表现不佳,后者则可能遭遇协调问题,两者均限制了性能表现。为此,我们提出了一种新的统一VLA框架——LoHoVLA,旨在克服这些局限。LoHoVLA利用大规模预训练的视觉语言模型(VLM)作为核心,同时生成用于子任务生成的语言标记和用于机器人动作预测的动作标记,这种共享表示促进了任务间的更好泛化。此外,LoHoVLA采用了一种分层闭环控制机制,以减轻来自高层次规划和低层次控制的错误。为了训练LoHoVLA,我们引入了基于Ravens模拟器构建的LoHoSet数据集,该数据集包含20个长期任务,每个任务配有1,000个专家演示,涵盖视觉观察、语言目标、子任务及机器人动作。实验结果表明,在Ravens模拟器的长期具身任务中,LoHoVLA显著超越了分层和标准VLA方法。这些发现强调了统一架构在推进可泛化具身智能方面的巨大潜力。
近期,ChatGPT-4o强大的文本生成图像能力,使得原生多模态大语言模型备受瞩目。然而,其多模态能力仍局限于图像与文本领域。实际上,在图像之外,理解与生成三维内容的能力同样至关重要。为填补这一空白,我们提出了ShapeLLM-Omni——一款原生三维大语言模型,能够理解和生成任意序列的三维资产与文本。首先,我们训练了一个三维向量量化变分自编码器(VQVAE),将三维对象映射至离散潜在空间,以实现高效且准确的形状表示与重建。基于这些三维感知的离散标记,我们创新性地构建了一个名为3D-Alpaca的大规模连续训练数据集,涵盖生成、理解与编辑任务,为未来研究与训练提供了丰富的资源。最后,通过在3D-Alpaca数据集上对Qwen-2.5-vl-7B-Instruct模型进行指令微调,我们的工作为扩展具备基础三维能力的多模态模型提供了有效尝试,为未来三维原生AI的研究做出了贡献。项目页面:https://github.com/JAMESYJL/ShapeLLM-Omni。
将基于规则的强化学习(RL)应用于多模态大语言模型(MLLMs)带来了独特的挑战,并可能偏离纯文本领域的研究发现,尤其是在感知密集型任务中。本文通过拼图游戏这一结构化实验框架,对基于规则的视觉RL进行了全面研究。拼图游戏具备固有的真实标签、可调节的难度以及对复杂决策的需求,使其成为本研究的理想选择。我们的研究揭示了几个关键发现:首先,我们发现MLLMs在最初对最简单的拼图游戏表现接近随机猜测,但通过微调后,能够达到近乎完美的准确率,并能泛化到复杂、未见过的配置。其次,在拼图游戏上的训练能够诱导对其他视觉任务的泛化,其效果与特定任务配置相关。第三,MLLMs无论是否进行显式推理都能学习和泛化,尽管开源模型往往倾向于直接回答。因此,即使训练了逐步推理,它们也可能在得出最终答案时忽略思考过程。第四,我们观察到复杂的推理模式似乎是预先存在的而非涌现的,其频率随着训练和任务难度的增加而上升。最后,我们的结果表明,RL比监督微调(SFT)展现出更有效的泛化能力,而初始的SFT冷启动阶段可能会阻碍后续的RL优化。尽管这些观察基于拼图游戏,且在其他视觉任务中可能有所不同,但本研究为集体理解基于规则的视觉RL及其在多模态学习中的潜力贡献了一块宝贵的拼图。代码可在以下网址获取:https://github.com/zifuwanggg/Jigsaw-R1。
近期视频扩散模型的进展展现了其在生成机器人决策数据方面的强大潜力,轨迹条件进一步实现了精细控制。然而,现有的基于轨迹的方法主要关注单个物体的运动,难以捕捉复杂机器人操作中至关重要的多物体交互。这一局限源于重叠区域内的多特征纠缠,导致视觉保真度下降。为此,我们提出了RoboMaster,一个通过协作轨迹公式建模物体间动态的新颖框架。与先前分解物体的方法不同,我们的核心是将交互过程分解为三个子阶段:交互前、交互中和交互后。每个阶段均利用主导物体的特征进行建模,具体而言,交互前和交互后阶段采用机械臂的特征,而交互过程中则使用被操作物体的特征,从而缓解了先前工作中交互期间多物体特征融合的弊端。为了进一步确保视频中主体语义的一致性,我们为物体引入了外观和形状感知的潜在表示。在具有挑战性的Bridge V2数据集上的大量实验以及野外评估表明,我们的方法超越了现有技术,在轨迹控制的机器人操作视频生成领域确立了新的最先进性能。
强化学习(RL)已成为训练大规模语言模型(LLMs)的热门范式,尤其是在推理任务中。针对LLMs的有效RL训练需要大规模并行化,并迫切需求高效的训练系统。现有大多数面向LLMs的大规模RL系统采用同步方式,在批处理设置中交替进行生成与训练,每批训练中的rollout由同一(或最新)模型生成。这种方式虽稳定了RL训练,却存在严重的系统效率低下问题。生成必须等待批次中最长输出完成后才能进行模型更新,导致GPU利用率不足。我们提出了AReaL,一个完全异步的RL系统,彻底解耦了生成与训练。AReaL中的rollout工作者持续生成新输出而无需等待,而训练工作者则在收集到一批数据时随时更新模型。AReaL还集成了一系列系统级优化,显著提升了GPU利用率。为稳定RL训练,AReaL通过平衡rollout与训练工作者的工作量来控制数据陈旧度,并采用了一种增强陈旧度的PPO变体,以更好地处理过时的训练样本。在数学和代码推理基准上的大量实验表明,与同等GPU数量下最佳同步系统相比,AReaL实现了高达2.57倍的训练加速,同时保持了匹配甚至更优的最终性能。AReaL的代码已发布于https://github.com/inclusionAI/AReaL/。
大型多模态模型(LMMs)在多种视觉-语言任务中展现了卓越性能。然而,它们往往难以全面理解对地观测(EO)数据,而这类数据对于监测环境及人类活动对其影响至关重要。本研究提出了EarthMind,一种新颖的视觉-语言框架,旨在实现多粒度、多传感器EO数据的深度理解。EarthMind包含两大核心组件:(1) 空间注意力提示(SAP),通过重新分配大语言模型(LLM)内的注意力,增强像素级理解能力;(2) 跨模态融合,将异构模态对齐至共享空间,并根据信息密度自适应调整token权重,实现有效融合。为促进多传感器融合评估,我们推出了EarthMind-Bench,一个包含超过2000对人工标注的多传感器图像-问题对的综合基准,涵盖广泛的感知与推理任务。大量实验验证了EarthMind的有效性,其在EarthMind-Bench上达到了最先进的性能,尽管规模仅为4B,却超越了GPT-4o。此外,EarthMind在多个公开EO基准测试中均优于现有方法,展示了其在统一框架下应对多粒度与多传感器挑战的潜力。
规模法则通过基于模型规模、计算量和数据量的可预测性能扩展,塑造了机器学习领域的最新进展。与此同时,人工智能计算成本的上升催生了模型压缩技术,特别是量化和稀疏化,这些技术旨在缓解大规模训练和推理带来的高昂计算需求。本文探讨了规模法则与压缩格式之间的相互作用,研究了一个统一的规模框架是否能在训练过程中,针对如稀疏、标量量化、稀疏量化乃至向量量化等多种压缩表示形式,准确预测模型性能。我们的主要贡献包括验证了一个通用的规模法则公式,并展示了它不仅适用于单一压缩类型,还能跨压缩类型组合应用。基于此,我们的核心发现是从理论和实证两方面证明,存在一个基于表示拟合随机高斯数据能力的简单“容量”度量,该度量能够稳健地预测多种压缩表示下的参数效率。在实践层面,我们扩展了该公式,以直接比较不同压缩格式的精度潜力,并推导出在稀疏量化格式上训练的更好算法。
现有的大型语言模型(LLMs)在遵循复杂指令时面临挑战,尤其是当存在多个约束条件并以并行、链式和分支结构组织时。一种直观的解决方案,即思维链(CoT),被期望能普遍提升LLMs的能力。然而,我们发现,由于CoT仅对指令进行表面化的重述,其浅层的推理模式反而对性能产生了负面影响。它未能深入剖析约束条件的构成,以识别它们在类型和维度层次上的关系。为此,我们提出了一种系统方法,通过激励推理以实现测试时计算规模的扩展,从而提升LLMs处理复杂指令的能力。首先,我们从现有分类体系下对复杂指令的分解出发,提出了一种可复现的数据获取方法。其次,我们利用强化学习(RL)结合可验证的规则中心奖励信号,专门培养遵循指令的推理能力。我们通过样本间的对比,针对复杂指令下推理的浅层和非本质特性,强化了CoT的执行效果。同时,我们还采用专家行为克隆,促进LLMs从快速思维向熟练推理者的稳定分布转变。在七个综合基准上的广泛评估验证了所提方法的有效性,其中1.5B参数的LLM实现了11.74%的性能提升,其表现可与8B参数的LLM相媲美。代码和数据可在https://github.com/yuleiqin/RAIF获取。
奖励建模是应用基于人类反馈的强化学习(RLHF)对齐大型语言模型(LLMs)以构建安全基础模型的关键步骤。然而,基于Bradley-Terry(BT)模型的奖励建模假设存在一个全局奖励函数,未能捕捉到人类偏好固有的多样性和异质性。因此,这种过度简化限制了LLMs在个性化和多元化对齐方面的支持能力。理论上,我们证明当人类偏好遵循多样子群体的混合分布时,单一的BT模型存在不可约误差。尽管现有解决方案,如带有细粒度注释的多目标学习,有助于解决这一问题,但它们成本高昂且受限于预定义属性,未能充分捕捉人类价值观的丰富性。在本研究中,我们提出了MiCRo,一个两阶段框架,通过利用大规模二元偏好数据集而不需要显式的细粒度注释,增强了个性化偏好学习。在第一阶段,MiCRo引入了上下文感知的混合建模方法以捕捉多样的人类偏好。在第二阶段,MiCRo集成了在线路由策略,该策略根据特定上下文动态调整混合权重以解决歧义,从而在最小额外监督下实现高效且可扩展的偏好适应。在多个偏好数据集上的实验表明,MiCRo有效捕捉了多样的人类偏好,并显著提升了下游个性化效果。
人工智能生成内容(AIGC)在视觉领域的快速发展,得益于如扩散模型等先进生成框架,已能创造出高度逼真的合成图像与视频。尽管这些突破带来了巨大机遇,但也引发了关于内容真实性与完整性的重大关切。当前多数AIGC检测方法采用黑箱式二元分类器,其可解释性有限,且缺乏统一框架同时支持图像与视频检测。这种双重限制削弱了模型的透明度,降低了可信度,并阻碍了实际应用部署。为应对这些挑战,我们推出了IVY-FAKE,一个专为可解释多模态AIGC检测设计的新颖、统一且大规模的数据集。不同于以往基准数据集在模态覆盖上的碎片化及标注稀疏的问题,IVY-FAKE包含超过15万个丰富标注的训练样本(图像与视频)及18,700个评估样本,每个样本均附有超越简单二元标签的详细自然语言推理。基于此,我们提出了Ivy可解释检测器(IVY-XDETECTOR),一种统一的AIGC检测与可解释架构,能够同时对图像与视频内容进行可解释检测。我们的统一视觉-语言模型在多个图像与视频检测基准测试中达到了最先进的性能,彰显了数据集与建模框架带来的显著进步。我们的数据已公开于https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake。
链式思维(CoT)提示法能够激发大型语言模型(LLMs)进行复杂推理,包括在信息检索(IR)领域的应用。然而,这种方法常导致模型过度思考,产生冗长且语义重复的推理轨迹,却收效甚微。我们识别出IR中的两大挑战:一是重复访问相似状态的冗余路径,二是偏离用户意图的错误推理。为解决这些问题,我们提出了状态机推理(SMR),这是一种基于状态转移的推理框架,由离散动作(精炼、重排、停止)构成,支持早期停止和精细控制。在BEIR和BRIGHT基准测试上的实验表明,SMR将检索性能(nDCG@10)提升了3.4%,同时减少了74.4%的token使用量。SMR无需针对特定任务进行调整,即可跨LLMs和检索器泛化,为传统CoT推理提供了一种实用的替代方案。代码及详细信息请访问https://github.com/ldilab/SMR。
直接训练大型语言模型(LLMs)用于多智能体系统(MAS)仍然面临挑战,这源于复杂的奖励建模、动态的智能体交互以及严苛的泛化要求。本文探讨了后训练技术,特别是监督微调(SFT)和可验证奖励的强化学习(RLVR),是否能够有效泛化至多智能体场景。我们以经济推理作为测试平台,利用其在数学和博弈论中的坚实基础、对结构化分析推理的需求,以及其在市场设计、资源分配和政策分析等现实世界应用中的相关性。我们介绍了Recon(像经济学家一样推理),一个拥有70亿参数的开源LLM,基于精心挑选的2,100个高质量经济推理问题数据集进行后训练。在经济推理基准测试和多智能体游戏上的全面评估显示,在结构化推理和经济理性方面均有显著提升。这些结果凸显了领域对齐的后训练在增强推理能力和智能体对齐方面的潜力,同时阐明了SFT和RL在塑造模型行为中的作用。代码可在https://github.com/MasterZhou1/Recon 获取。
图像编辑是计算机图形学、视觉和视觉特效领域的重要任务,近期基于扩散模型的方法已能实现快速且高质量的编辑效果。然而,对于需要显著结构变化的编辑任务,如非刚性变形、对象修改或内容生成,仍面临挑战。现有的少步骤编辑方法常产生无关纹理或难以保留源图像的关键属性(如姿态)。我们提出了Cora,一种新颖的编辑框架,通过引入对应感知的噪声校正和插值注意力图来解决这些局限。Cora通过语义对应关系对齐源图像与目标图像的纹理和结构,在必要时生成新内容的同时实现精确的纹理转移。Cora提供了在内容生成与保留之间平衡的控制能力。大量实验表明,无论是定量还是定性分析,Cora在保持结构、纹理和身份一致性方面均表现出色,适用于姿态变化、对象添加和纹理优化等多种编辑场景。用户研究证实,Cora提供的编辑效果优于现有方法。
依托于大型语言模型(LLM)驱动的网页浏览代理,能够以类人的方式操作浏览器,为自动化日常任务开辟了一条高度透明的路径。随着网页代理能力的不断提升,在通用浏览任务中展现出熟练度,一个关键问题随之浮现:它们能否超越通用浏览,稳健地处理那些繁琐复杂、人类常避之不及的任务?本文中,我们推出了WebChoreArena,一个全新的、完全可复现的基准测试,包含532项精心设计的任务,旨在将WebArena的测试范围从通用浏览扩展至更为费时费力的任务。WebChoreArena系统性地整合了三大挑战:(i) 海量记忆任务,要求从观察中准确检索大量信息;(ii) 计算任务,需进行精确的数学推理;(iii) 长期记忆任务,要求跨多个网页保持长期记忆。基于完全可复现且广泛采用的四个WebArena模拟环境构建,WebChoreArena确保了严格的复现性,并支持与现有WebArena基准的公平直接对比,为代理进展提供了关键洞见。我们的实验结果显示,随着LLM的演进,以GPT-4o、Claude 3.7 Sonnet和Gemini 2.5 Pro为代表,在WebChoreArena上的性能均有显著提升。这些发现表明,WebChoreArena非常适合以更高的清晰度衡量最先进LLM的进步。然而,结果也指出,即便是Gemini 2.5 Pro,与WebArena相比仍有较大提升空间,凸显了WebChoreArena带来的更大挑战。
当今的人工智能系统采用人类设计的固定架构,无法自主且持续地进行自我改进。人工智能的进步本身可以实现自动化。若能安全实施,这将加速AI的发展,使我们能更早地收获其带来的益处。元学习能够自动化地发现新算法,但受限于一阶改进及人类对合适搜索空间的设计。哥德尔机提出了一种理论上的替代方案:一种能够以可证明有益的方式反复自我修改的自我改进型AI。遗憾的是,在实践中证明大多数修改具有净效益是不可能的。我们引入了达尔文哥德尔机(DGM),这是一种自我改进系统,它迭代地修改自身代码(从而也提升了其修改自身代码库的能力),并通过编码基准对每次修改进行实证验证。受达尔文进化论和开放性研究启发,DGM维护了一个生成的编码代理档案库。它通过从档案库中采样一个代理,并利用基础模型创建该代理的一个新颖、有趣的版本来扩展档案库。这种开放式探索形成了一个不断增长的多样化、高质量代理树,允许并行探索搜索空间中的多条路径。实证表明,DGM自动提升了其编码能力(例如,更好的代码编辑工具、长上下文窗口管理、同行评审机制),在SWE-bench上的性能从20.0%提升至50.0%,在Polyglot上从14.2%提升至30.7%。此外,DGM显著优于不具备自我改进或开放式探索的基线模型。所有实验均在安全措施(如沙盒环境、人工监督)下进行。DGM是迈向自我改进型AI的重要一步,它能够沿着通向无尽创新的路径,自主积累其进步的基石。
视觉语言模型(VLMs)被期望能够执行有效的多模态推理并做出逻辑连贯的决策,这对于图表理解和空间问题解决等任务至关重要。然而,当前的VLM推理缺乏大规模且结构良好的训练数据集。为了填补这一空白,我们提出了VisualSphinx,这是首个大规模合成的视觉逻辑推理训练数据。为了解决图像合成与答案定位的挑战,我们提出了一种规则到图像的合成流程,该流程从种子问题中提取并扩展谜题规则,并生成用于谜题样本组装的定位合成图像代码。实验表明,使用GRPO在VisualSphinx上训练的VLM受益于我们数据集的逻辑连贯性和可读性,并在逻辑推理任务上表现出改进的性能。从VisualSphinx中发展出的增强推理能力也惠及其他推理任务,如代数推理、算术推理和几何推理。
负向引导——明确抑制不期望的属性——仍然是扩散模型中的一个基本挑战,尤其是在少步采样场景下。尽管无分类器引导(CFG)在标准设置下表现良好,但在采样步数极度压缩的情况下,由于正负分支预测结果的分歧,其效果会失效。我们提出了归一化注意力引导(NAG),这是一种高效、无需训练的机制,通过在注意力空间应用基于L1范数的归一化和精细化外推。NAG在CFG失效时恢复了有效的负向引导,同时保持了生成质量。与现有方法不同,NAG能够跨架构(如UNet、DiT)、采样模式(少步、多步)和模态(图像、视频)通用,作为一个计算开销极小的通用插件。通过大量实验,我们展示了在文本对齐(CLIP分数)、保真度(FID、PFID)以及人类感知质量(ImageReward)方面的一致提升。我们的消融研究验证了每个设计组件的有效性,而用户研究则证实了对NAG引导输出的显著偏好。作为一种无需重新训练、模型无关的推理时方法,NAG为所有现代扩散框架提供了轻松的负向引导——附录中提供了伪代码!
基于扩散的语言模型为自回归(AR)模型提供了一个引人注目的替代方案,它支持并行且可控的生成。在这一系列模型中,掩码扩散模型(MDMs)展现了最强的性能,但在困惑度上仍不及AR模型,并且缺少关键的推理效率特性——尤其是KV缓存。在本研究中,我们引入了Eso-LMs,这是一个融合了AR与MDM范式的新模型家族,能够在两者之间平滑地调整困惑度,同时克服各自的局限。Eso-LMs在标准语言建模基准测试中确立了新的技术标杆。尤为重要的是,我们**首次为MDMs引入了KV缓存**,同时保持了并行生成能力,显著提升了推理效率。结合优化的采样策略,我们的方法实现了比标准MDMs**快65倍**的推理速度,以及比先前的半自回归方法**快4倍**的表现。项目页面提供了代码和模型检查点: [http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs)
开源Whisper风格语音模型(OWSM)项目利用学术级资源开发了一系列完全开放的语音基础模型,但其训练数据仍显不足。本研究通过整合YODAS——一个拥有知识共享许可的大规模网络爬取数据集,对OWSM进行了增强。然而,YODAS的原始特性带来了诸如错误语言标签和音频文本不对齐等挑战,使得其整合并非易事。为此,我们构建了一个基于公共工具包的可扩展数据清洗流程,最终生成了一个包含75种语言、总计166,000小时语音的清洗后数据集。基于这一精选数据集及现有OWSM数据训练的新一代OWSM v4模型,在多语言基准测试中显著超越了前代版本。在多种场景下,我们的模型甚至与Whisper和MMS等前沿工业模型持平或超越。我们将通过ESPnet工具包公开发布清洗后的YODAS数据、预训练模型及所有相关脚本。
先前的研究已探讨了多模态大语言模型(MLLMs)通过将三维场景解读为视频来理解其内容的应用。这些方法通常依赖于全面的三维数据输入,如点云或重建的鸟瞰图(BEV)。在本研究中,我们推动了这一领域的发展,增强了MLLMs直接从视频数据中理解和推理三维空间的能力,而无需额外的三维输入。我们提出了一种新颖且高效的方法——视频三维几何大语言模型(VG LLM)。该方法采用三维视觉几何编码器,从视频序列中提取三维先验信息,并将这些信息与视觉标记整合后输入MLLM。大量实验表明,我们的方法在直接从视频源学习的各种三维场景理解和空间推理任务中取得了显著进步。令人瞩目的是,我们的4B模型不依赖显式的三维数据输入,却在VSI-Bench评估中与现有最先进方法相比取得了竞争性成果,甚至超越了Gemini-1.5-Pro。
近期,生成式人工智能(Generative AI)与大规模语言模型(LLMs)的进展,使得高度逼真的合成内容创作成为可能,这引发了关于其可能被恶意利用(如传播虚假信息和操纵舆论)的担忧。此外,由于缺乏评估真实场景下泛化能力的稳健基准,检测机器生成文本(MGT)仍面临挑战。在本研究中,我们提出了一套流程,用于测试当前最先进的MGT检测器(例如Mage、Radar、LLM-DetectAIve)在面对基于语言学知识的对抗攻击时的鲁棒性。为了挑战这些检测器,我们采用直接偏好优化(DPO)微调语言模型,使MGT风格向人类书写文本(HWT)靠拢。这一策略利用了检测器对风格线索的依赖,使得新生成的文本更难被识别。同时,我们分析了这种对齐过程引发的语言学变化,以及检测器用于识别MGT文本的特征。我们的研究结果表明,仅需少量样本即可轻易欺骗检测器,导致检测性能显著下降。这凸显了改进检测方法、增强其对未见领域文本的鲁棒性的重要性。
通过可验证奖励强化学习(RLVR)训练的大型语言模型(LLMs)在具有明确、可自动化验证的任务上取得了突破,如软件编程和数学问题。然而,将RLVR扩展到电子设计自动化(EDA)领域,特别是从自然语言(NL)规范自动生成硬件描述语言(HDLs)如Verilog,面临三大挑战:缺乏自动化且准确的验证环境、高质量NL-代码对的稀缺性,以及RLVR的高昂计算成本。为此,我们推出了CodeV-R1,一个用于训练Verilog生成LLMs的RLVR框架。首先,我们开发了一个基于规则的测试平台生成器,能够对黄金参考进行鲁棒的等价性检查。其次,我们提出了一种往返数据合成方法,将开源的Verilog片段与LLM生成的NL描述配对,通过生成的测试平台验证代码-NL-代码的一致性,并过滤掉不等价的示例,从而获得高质量数据集。第三,我们采用了两阶段“蒸馏后RL”的训练流程:蒸馏用于推理能力的冷启动,随后是自适应DAPO,这是我们新颖的RLVR算法,能够通过自适应调整采样率来降低训练成本。最终模型CodeV-R1-7B在VerilogEval v2和RTLLM v1.1上分别达到了68.6%和72.9%的pass@1,较之前最先进水平提升了12~20%,同时匹配甚至超越了671B的DeepSeek-R1性能。我们将发布我们的模型、训练流程和数据集,以促进EDA和LLM社区的研究。
开放基准对于评估和推进大型语言模型至关重要,它们提供了可复现性和透明度。然而,其易获取性也使其容易成为测试集污染的目标。在本研究中,我们引入了DyePack框架,该框架利用后门攻击来识别在训练过程中使用了基准测试集的模型,而无需访问模型的损失、logits或任何内部细节。正如银行将染料包与现金混合以标记劫匪一样,DyePack将后门样本与测试数据混合,以标记那些在训练中使用了测试数据的模型。我们提出了一种结合多个随机目标后门的原则性设计,使得在标记每个模型时能够精确计算假阳性率(FPR)。这种方法在理论上防止了错误指控,同时为每一个检测到的污染案例提供了强有力的证据。我们在三个数据集上的五个模型上评估了DyePack,涵盖了多项选择和开放式生成任务。对于多项选择题,它成功检测出了所有被污染的模型,在MMLU-Pro和Big-Bench-Hard数据集上,使用八个后门时,保证的FPR分别低至0.000073%和0.000017%。对于开放式生成任务,它在Alpaca数据集上表现出良好的泛化能力,使用六个后门时,以仅0.127%的保证假阳性率识别出了所有被污染的模型。
分词效率对大型语言模型(LLMs)的性能与成本起着至关重要的作用,然而大多数模型依赖于为通用语料库优化的静态分词器。这些分词器的固定词汇表往往难以适应特定领域或语言的输入,导致生成的标记序列更长,计算成本更高。我们提出了zip2zip框架,使LLMs能够在推理时动态调整词汇表,从而生成更少的标记,实现更快的推理速度。zip2zip包含三个核心组件:(1) 基于Lempel-Ziv-Welch (LZW)压缩算法的分词器,能够即时将标记逐步压缩为可重复使用的“超标记”;(2) 嵌入层,在运行时为新形成的超标记计算嵌入表示;(3) 一种因果语言建模变体,训练模型以处理经过超标记化压缩的序列。我们证明,通过参数高效的微调,现有LLM可在10 GPU小时内完成zip2zip化改造。改造后的zip2zip LLM在推理时能有效利用超标记,将输入输出序列长度减少20-60%,显著提升了推理延迟性能。
面向任务的对话系统常面临这样的困境:用户话语在语义上看似完整,却缺乏必要的结构信息以触发系统采取恰当行动。这一问题的根源在于,用户往往未能完全理解自身需求,而系统却需要精确的意图定义。当前基于大语言模型(LLM)的代理无法有效区分语言表达上的完整性与上下文可触发性的差异,缺乏协作式意图形成的框架。为此,我们提出了STORM框架,通过UserLLM(拥有完整内部访问权限)与AgentLLM(仅可观察外部行为)之间的对话,模拟非对称信息动态。STORM生成标注语料库,捕捉表达轨迹与潜在认知转变,从而系统分析协作理解的发展过程。我们的贡献包括:(1)形式化对话系统中的非对称信息处理;(2)建模意图形成,追踪协作理解的演变;(3)提出评估指标,同时衡量内部认知提升与任务表现。在四种语言模型上的实验表明,在某些场景下,适度的不确定性(40-60%)可能优于完全透明,且模型特有的模式提示我们重新思考人机协作中信息完整性的最优程度。这些发现深化了对非对称推理动态的理解,并为不确定性校准的对话系统设计提供了洞见。
模型蒸馏已成为创建保留大型系统能力且可部署的小型语言模型的关键技术。然而,其广泛部署引发了关于对抗性操纵鲁棒性的担忧。本文研究了蒸馏模型在训练过程中对对抗性注入偏见内容的脆弱性。我们证明,攻击者可以通过最小程度的数据投毒将微妙偏见注入教师模型,这些偏见会传播到学生模型并显著放大。我们提出了两种传播模式:无目标传播,即偏见影响多个任务;以及目标传播,专注于特定任务,同时在其他地方保持正常行为。仅需25个被投毒的样本(0.25%的投毒率),学生模型在目标场景下生成偏见响应的概率高达76.9%,高于教师模型的69.4%。在无目标传播中,学生模型在未见任务上出现对抗性偏见的频率是教师模型的6至29倍。我们在六种偏见类型(定向广告、钓鱼链接、叙事操控、不安全编码实践)、多种蒸馏方法以及涵盖文本和代码生成的不同模态中验证了这些发现。我们的评估揭示了当前防御措施(困惑度过滤、偏见检测系统、基于LLM的自动评分框架)在应对这些攻击时的不足。结果暴露了蒸馏模型中的重大安全漏洞,凸显了专门防护措施的必要性。我们提出了构建有效对抗性偏见缓解策略的实用设计原则。
视频异常理解(VAU)对于智慧城市、安全监控和灾害预警系统等应用至关重要,但由于其对细粒度时空感知能力的要求以及在模糊情境下的稳健推理需求,这一任务仍具挑战性。尽管异常检测技术已取得进展,现有方法往往缺乏可解释性,难以捕捉异常事件的因果与上下文关联。这一局限因缺乏全面评估异常场景下推理能力的基准而进一步加剧。为应对这两大挑战,我们提出了VAU-R1,一个基于多模态大语言模型(MLLMs)的数据高效框架,通过强化微调(RFT)增强异常推理能力。此外,我们推出了VAU-Bench,这是首个专为视频异常推理设计的链式思维基准,包含多选题、详细推理过程、时间标注及描述性字幕。实验结果表明,VAU-R1在多种情境下显著提升了问答准确性、时间定位能力及推理连贯性。我们的方法与基准共同为可解释且注重推理的视频异常理解奠定了坚实基础。代码已发布于https://github.com/GVCLab/VAU-R1。
净化任务,即将有害语言重写为非毒性文本,在网络上毒性内容日益增多的背景下变得愈发重要。然而,高质量的并行净化数据集,尤其是针对仇恨言论的,由于人工标注的成本和敏感性,仍然稀缺。本文提出了一种新颖的LLM(大语言模型)循环管道,利用GPT-4o-mini实现自动化净化。我们首先通过用LLM替代人工标注者来复制ParaDetox管道,并展示LLM的表现与人工标注相当。在此基础上,我们构建了PARADEHATE,一个专门用于仇恨言论净化的大规模并行数据集。我们发布了包含超过8K仇恨/非仇恨文本对的PARADEHATE作为基准,并评估了多种基线方法。实验结果表明,如BART等模型,在PARADEHATE上微调后,在风格准确性、内容保留和流畅性方面表现更佳,证明了LLM生成的净化文本作为可扩展替代人工标注的有效性。
检索增强生成(RAG)技术提升了答案的时效性与事实准确性。然而,现有评估体系鲜少检验这些系统如何应对现实世界中的噪声、内部与外部检索上下文间的冲突,以及快速变化的事实。我们提出了检索感知的鲁棒性评估框架(RARE),这是一个统一的框架及大规模基准测试,旨在联合压力测试动态、时效性语料库上的查询与文档扰动。RARE的核心特性之一是其知识图谱驱动的合成管道(RARE-Get),该管道能够自动从定制语料库中提取单跳及多跳关系,并无需人工干预即可生成多层次问题集。利用这一管道,我们构建了一个数据集(RARE-Set),涵盖400份专家级时效性金融、经济与政策文档及48,322个问题,其分布随基础来源的变化而演变。为量化鲁棒性,我们形式化了检索条件鲁棒性指标(RARE-Met),这些指标捕捉了模型在查询、文档或现实世界检索结果被系统性改变时保持正确或恢复的能力。我们的研究结果显示,RAG系统对扰动表现出惊人的脆弱性,文档鲁棒性始终是最薄弱环节,无论生成器规模或架构如何。在所有领域中,RAG系统在多跳查询上的鲁棒性均低于单跳查询。
大型语言模型(LLMs)越来越多地在单一答案的多项选择题任务上进行评估,然而许多现实世界的问题需要从一组选项中识别出所有正确答案。这种能力仍未被充分探索。我们推出了SATA-BENCH,这是首个专门用于评估LLMs在“选择所有适用项”(SATA)问题上的基准测试,涵盖阅读理解、法律和生物医学等多个领域。我们对27个开源和专有模型的评估揭示了一个显著差距:即使是最强大的模型,其精确匹配率也仅为41.8%,暴露了LLMs在可靠识别所有正确答案方面的不足。我们发现,这一弱点源于两个核心挑战:选择偏差——模型倾向于某些选项而忽略内容,以及数量偏差——模型无法预测正确答案的数量。为解决这些问题,我们提出了Choice Funnel,一种结合了令牌去偏和自适应阈值的解码策略,以引导模型做出完整且准确的选择。Choice Funnel在精确匹配率上比竞争基线高出最多29%,同时将推理成本降低超过64%。我们的研究揭示了当前LLMs的根本局限性,并引入了一个新的框架来诊断和改进多答案推理。我们发布SATA-BENCH和Choice Funnel,以促进LLM在现实多答案应用中的稳健决策能力发展。
文本引导的3D编辑旨在精确修改语义相关的局部3D区域,这一技术在从3D游戏到电影制作等多种实际应用中具有巨大潜力。现有方法通常遵循一种视图无差别范式:不加区分地编辑2D视图并将其投影回3D空间。然而,它们忽视了不同视图间的相互依赖性,导致多视图编辑结果不一致。在本研究中,我们提出理想的3D编辑一致性可以通过渐进式视图范式实现,该范式将编辑语义从编辑显著视图传播至其他编辑稀疏视图。具体而言,我们提出了Pro3D-Editor这一新颖框架,主要包括主视图采样器、关键视图渲染器和全视图优化器。主视图采样器动态采样并编辑最具编辑显著性的视图作为主视图。关键视图渲染器通过其多视图专家混合低秩适应(MoVE-LoRA)机制,准确地将编辑语义从主视图传播至其他关键视图。全视图优化器则基于编辑后的多视图对3D对象进行编辑和精细化处理。大量实验表明,我们的方法在编辑准确性和空间一致性方面均优于现有方法。
随着计算成本的不断攀升和资源的有限性,预算迭代训练的重要性愈发凸显,其目标是在预定的迭代预算内实现最优学习。尽管学习率调度从根本上决定了不同网络和任务的表现,特别是在预算迭代场景下,其设计仍主要依赖启发式方法,缺乏理论支撑。此外,最优学习率调度需要大量的试错选择,导致训练过程效率低下。在本研究中,我们提出了统一预算感知(UBA)调度,这是一种基于理论的学习率调度方法,在不同受限训练预算下,于多种架构和任务中持续优于常用调度方案。首先,我们通过构建一个新颖的训练预算感知优化框架来弥合这一差距,该框架明确考虑了景观曲率变化的鲁棒性。基于此框架,我们推导出UBA调度,它由单一超参数φ控制,在灵活性与简洁性之间提供权衡,无需针对每个网络进行数值优化。此外,我们建立了φ与条件数之间的理论联系,为我们的方法增添了解释性和合理性。同时,我们证明了不同φ值下的收敛性,并通过理论分析和实证结果提供了选择φ的实用指南。大量实验结果表明,UBA在不同训练迭代预算下,跨越视觉和语言任务、涵盖网络架构(如ResNet、OLMo)及规模,均持续超越常用调度方案。
本文通过建立全面的理论指导方针并引入一种新颖的评估框架,解决了阿拉伯语语言模型评估中的关键空白。我们首先分析了现有的阿拉伯语评估数据集,识别出在语言准确性、文化一致性及方法论严谨性方面存在的显著问题。针对大语言模型(LLMs)的这些局限,我们提出了阿拉伯深度迷你数据集(ADMD),这是一个精心策划的包含490个挑战性问题的集合,涵盖十大主要领域(42个子领域,见图1)。利用ADMD,我们评估了五款领先的语言模型:GPT-4、Claude 3.5 Sonnet、Gemini Flash 1.5、CommandR 100B和Qwen-Max。我们的研究结果显示,不同模型在各个领域的表现存在显著差异,特别是在需要深厚文化理解和专业知识领域面临挑战。Claude 3.5 Sonnet以30%的整体准确率表现最佳,在阿拉伯数学理论、阿拉伯语言及伊斯兰领域展现出相对优势。本研究不仅为提升阿拉伯语语言模型评估提供了理论基础,还强调了文化能力与技术能力并重的重要性,为实践提供了深刻洞见。
本文通过建立全面的理论指导方针并引入一种新颖的评估框架,解决了阿拉伯语语言模型评估中的关键空白。我们首先分析了现有的阿拉伯语评估数据集,识别出在语言准确性、文化一致性及方法论严谨性方面存在的显著问题。针对大语言模型(LLMs)的这些局限,我们提出了阿拉伯深度迷你数据集(ADMD),这是一个精心策划的包含490个挑战性问题的集合,涵盖十大主要领域(42个子领域,见图1)。利用ADMD,我们评估了五款领先的语言模型:GPT-4、Claude 3.5 Sonnet、Gemini Flash 1.5、CommandR 100B和Qwen-Max。我们的研究结果显示,不同模型在各个领域的表现存在显著差异,特别是在需要深厚文化理解和专业知识领域面临挑战。Claude 3.5 Sonnet以30%的整体准确率表现最佳,在阿拉伯数学理论、阿拉伯语言及伊斯兰领域展现出相对优势。本研究不仅为提升阿拉伯语语言模型评估提供了理论基础,还强调了文化能力与技术能力并重的重要性,为实践提供了深刻洞见。
从涉及复杂新颖物体排列的文本生成图像,对于当前的文本到图像(T2I)模型而言,仍是一项重大挑战。尽管先前的基于布局的方法通过二维布局的空间约束改进了物体排列,但它们往往难以捕捉三维定位,并牺牲了图像质量和连贯性。在本研究中,我们提出了ComposeAnything,一种无需重新训练现有T2I模型即可提升组合图像生成效果的新颖框架。我们的方法首先利用大语言模型(LLMs)的链式思维推理能力,从文本中生成2.5D语义布局,该布局包含带有深度信息的二维物体边界框及详细描述。基于此布局,我们生成一个空间和深度感知的物体粗略组合,捕捉预期构图,作为扩散型T2I模型中替代随机噪声初始化的强有力且可解释的先验。这一先验通过物体先验强化和空间控制去噪引导去噪过程,实现组合物体与背景的无缝生成,同时允许对不准确的先验进行优化。在T2I-CompBench和NSR-1K基准测试中,针对包含2D/3D空间排列、高物体数量及超现实构图的提示,ComposeAnything超越了现有最先进方法。人类评估进一步证实,我们的模型生成的图像质量高,其构图忠实地反映了文本内容。
本文提出了一种新颖的任务——在线多模态对话响应生成(OMCRG),旨在根据说话者的多模态输入,实时生成同步的言语与非言语听众反馈。OMCRG反映了自然双向互动,并在实现生成的音频与听众面部反应之间的同步方面提出了新挑战。为应对这些挑战,我们创新性地引入文本作为中间模态,以桥接音频与面部反应。因此,我们提出了OmniResponse,一种多模态大语言模型(MLLM),能够自回归地生成高质量的多模态听众响应。OmniResponse利用预训练的大语言模型,并增强了两项新组件:Chrono-Text,用于时间锚定生成的文本标记;以及TempoVoice,一个可控的在线文本转语音模块,能生成与面部反应同步的语音。为支持OMCRG的进一步研究,我们发布了ResponseNet,一个包含696个高质量双向互动的新数据集,这些互动配有同步的分屏视频、多通道音频、文字记录及面部行为标注。在ResponseNet上进行的全面评估表明,OmniResponse在语义语音内容、视听同步及生成质量方面显著优于基线模型。
大型语言模型(LLMs)在复杂推理任务中取得了显著成功,但其推理过程仍存在计算效率低下的问题。我们观察到许多主流LLMs中存在一种常见的失效模式——过度思考,即模型即使面对简单查询也会生成冗长且偏离主题的推理轨迹。近期研究尝试通过设定固定的token预算来缓解这一问题,然而这可能导致在较难问题上出现思考不足的情况。通过实证分析,我们发现这种低效往往源于不明确的问题解决策略。为对此进行形式化,我们提出了一个理论模型——贝叶斯预算分配模型(BBAM),该模型将推理建模为一系列具有不同不确定性的子问题序列,并引入E^3指标来捕捉正确性与计算效率之间的权衡。基于BBAM的理论成果,我们提出了“规划与预算”(Plan-and-Budget),这是一个模型无关的测试时框架,它通过自适应调度将复杂查询分解为子问题,并根据估计的复杂性分配token预算。Plan-and-Budget在一系列任务和模型中提升了推理效率,实现了高达+70%的准确率提升、-39%的token减少以及E^3指标187.5%的改进。尤为突出的是,它使一个较小模型(DS-Qwen-32B)达到了与更大模型(DS-LLaMA-70B)相当的效率,展示了Plan-and-Budget无需重新训练即可缩小性能差距的能力。我们的代码已公开于anonymous.4open.science/r/P-and-B-6513/。
多项研究已探讨了大型语言模型(LLMs)在编码任务中的工作机制,但大多集中于单语环境下的编程语言(PLs)。本文中,我们探究了LLMs概念空间中多种编程语言与英语之间的关系。我们利用两个基于Llama的模型,对21对编程语言进行了少样本翻译任务。通过解码任务过程中中间层的嵌入表示,我们观察到概念空间更接近于英语(包括编程语言关键词),并在中间层的后半部分为英语词汇分配了较高的概率。我们分析了11种编程语言及英语的神经元激活情况,发现尽管语言特异性神经元主要集中于底层,但每种编程语言独有的神经元则倾向于出现在顶层。对于那些与多种其他编程语言高度对齐的编程语言,识别其语言特异性神经元并不可行。这些编程语言通常拥有比其他编程语言更大的关键词集,并且在翻译任务中,无论输入/输出为何种编程语言,它们都更接近模型的概念空间。我们的发现为理解LLMs内部如何表示编程语言提供了洞见,揭示了模型概念空间中的结构模式。代码可在https://github.com/cisnlp/code-specific-neurons获取。
我们推出了SealQA,这是一个全新的挑战基准,旨在评估基于搜索增强的语言模型在事实查询问题上的表现,特别是在网络搜索产生矛盾、噪声或无用结果的情况下。SealQA包含三种变体:(1) Seal-0(主要)和(2) Seal-Hard,它们分别评估事实准确性和推理能力,其中Seal-0专注于那些聊天模型(如GPT-4.1)通常准确率接近零的最具挑战性问题;(3) LongSeal,它将SealQA扩展到测试长上下文、多文档推理的“大海捞针”场景。我们的评估揭示了当前模型的关键局限:即便是前沿的大型语言模型(LLMs)在SealQA的所有变体上表现均不佳。在Seal-0上,配备了o3和o4-mini等工具的前沿代理模型,在其最佳推理努力下,准确率分别仅为17.1%和6.3%。我们发现,如DeepSeek-R1-671B和o3-mini这样的高级推理模型对噪声搜索结果极为敏感。值得注意的是,在o3-mini、o4-mini和o3上增加测试时的计算资源并未带来可靠的性能提升,性能往往早早就达到平台期甚至下降。此外,尽管近期模型受“中间迷失”问题的影响较小,但在LongSeal中面对大量干扰项时,它们仍无法可靠地识别相关文档。为了促进未来研究,我们已在huggingface.co/datasets/vtllms/sealqa发布了SealQA。
近期,大型语言模型(LLMs)被应用于预测任务,部分研究声称这些系统已达到或超越人类表现。本文主张,作为研究共同体,我们应对此类结论持审慎态度,因为评估LLM预测者面临独特挑战。我们识别出两大类问题:(1)由于多种形式的时间信息泄露,难以信任评估结果;(2)从评估表现外推至实际预测存在困难。通过系统分析及先前研究中的具体案例,我们展示了评估缺陷如何引发对当前及未来性能声明的担忧。我们强调,需要更为严谨的评估方法,以可靠地评定LLMs的预测能力。
分布匹配蒸馏(DMD)已成功应用于诸如Stable Diffusion(SD)1.5等文本到图像扩散模型。然而,原始DMD在处理大规模基于流的文本到图像模型(如SD 3.5和FLUX)时,面临收敛难题。本文首先分析了将原始DMD应用于大规模模型时存在的问题。随后,为克服可扩展性挑战,我们提出了隐式分布对齐(IDA),以规范生成器与伪造分布之间的距离。此外,我们引入了段内指导(ISG),以重新定位教师模型中的时间步重要性分布。仅采用IDA,DMD便能在SD 3.5上实现收敛;结合IDA与ISG,DMD在SD 3.5和FLUX.1开发版上均能收敛。加之其他改进措施,如扩大判别器模型规模,我们的最终模型——SenseFlow,在基于扩散的文本到图像模型(如SDXL)及流匹配模型(如SD 3.5 Large和FLUX)的蒸馏任务中均展现出卓越性能。源代码将发布于https://github.com/XingtongGe/SenseFlow。
神经音频编解码器在将原始音频波形高效映射为离散符号表示方面取得了显著进展,这为当代音频生成模型奠定了基础。然而,现有的大多数编解码器主要针对重建质量进行优化,往往以牺牲编码符号的下游可建模性为代价。为克服这一瓶颈,我们引入了MagiCodec,一种基于单层流式Transformer的新型音频编解码器。MagiCodec设计了一个多阶段训练流程,融入了高斯噪声注入和潜在正则化,旨在增强生成代码的语义表达能力的同时保持高重建保真度。我们从频域角度分析了噪声注入的效果,证明了其在衰减高频成分和促进鲁棒符号化方面的有效性。广泛的实验评估表明,MagiCodec在重建质量和下游任务上均超越了现有最先进的编解码器。值得注意的是,MagiCodec生成的符号呈现出类似自然语言的Zipf分布,从而提高了与基于语言模型的生成架构的兼容性。代码和预训练模型可在https://github.com/Ereboas/MagiCodec获取。
检索增强型语言模型(RALMs)代表了一种经典范式,其中模型通过专门模块检索外部知识来增强生成能力。近年来,智能体技术的进步使得大型语言模型(LLMs)能够自主利用工具进行检索、规划和推理。尽管现有的基于训练的方法展现出潜力,但其智能体能力受限于训练过程中使用的任务特定数据的固有特性。为了进一步提升智能体的通用搜索能力,我们提出了一种新颖的预训练框架——MaskSearch。在预训练阶段,我们引入了检索增强掩码预测(RAMP)任务,模型通过学习利用搜索工具在大量预训练数据上填补掩码片段,从而为LLMs获得通用的检索和推理能力。随后,模型在下游任务上进行训练以实现进一步改进。我们结合了监督微调(SFT)和强化学习(RL)进行训练。对于SFT,我们融合基于智能体和蒸馏的方法生成训练数据,首先构建一个包含规划器、重写器、观察者的多智能体系统,随后引入一个自我进化的教师模型。而对于RL,我们采用DAPO作为训练框架,并采用由答案奖励和格式奖励组成的混合奖励系统。此外,我们引入了一种课程学习方法,使模型能够根据掩码片段的数量从易到难逐步学习。我们在开放域多跳问答场景中评估了该框架的有效性。通过大量实验,我们证明了MaskSearch显著提升了基于LLM的搜索智能体在域内和域外下游任务上的表现。
随着大型语言模型(LLMs)深度融入人类生活,并日益影响决策过程,评估它们是否以及多大程度上展现出主观偏好、观点和信念变得至关重要。这些倾向可能源于模型内部的偏见,这些偏见不仅塑造了模型的行为,还影响了它们向用户提供的建议和推荐,甚至可能强化某些特定观点。本文介绍了偏好、观点与信念调查(POBs),这是一个旨在评估LLMs在社会、文化、伦理及个人领域主观倾向的基准测试。我们应用该基准对领先的开源和闭源LLMs进行了评估,衡量了诸如可靠性、中立性和一致性等期望属性。此外,我们还探讨了通过推理和自我反思机制增加测试时计算资源对这些指标的影响。尽管这些机制在其他任务中表现有效,但我们的结果显示,在本研究领域,它们带来的提升有限。更为重要的是,我们发现较新的模型版本在一致性上有所下降,且对特定观点的偏向性增强,这揭示了一个盲点和一个令人担忧的趋势。POBS详情请访问:https://ibm.github.io/POBS
我们提出了一种新型长篇叙事形式——弗兰肯文本,这是在极端约束条件下由大型语言模型生成的:大部分词汇(例如90%)必须逐字复制自人类作品。这一任务对可控生成提出了严峻挑战,要求模型既要满足写作提示,又要整合分散的文本片段,同时还要保持叙事的连贯性。为生成弗兰肯文本,我们指导模型通过选择和组合人类撰写的段落来起草初稿,随后在维持用户指定复制比例的前提下,对初稿进行迭代修订。我们从三个维度评估生成的弗兰肯文本:写作质量、指令遵循度及可检测性。Gemini-2.5-Pro在此任务中表现惊人:其81%的弗兰肯文本连贯且100%符合提示要求。尤为值得注意的是,高达59%的输出被如Pangram等检测器误判为人类创作,揭示了AI文本检测器的局限性。人类评审员有时能通过文本中突兀的语气转换和段落间不一致的语法识别出弗兰肯文本,尤其是在较长的生成内容中。除了作为一项具有挑战性的生成任务外,弗兰肯文本还引发了关于如何构建有效检测器以应对这一新的作者身份灰色地带的讨论,为混合作者身份检测提供了训练数据,并作为研究人机协作写作过程的实验平台。
与人类普遍目标(如无害性和无幻觉性)对齐的视觉语言模型(VLMs)已成为人类处理视觉任务的重要助手。然而,即使在相同情境下,不同背景的人也会有不同的认知。因此,他们对VLM助手可能有个性化的期望。这凸显了将VLM助手与个性化情境认知对齐以满足现实世界辅助需求的紧迫性。为研究这一问题,我们首先通过基于社会学概念“角色集”来刻画个体,从而简化问题。接着,我们提出通过评估个体行为来检验个性化对齐是否实现。此外,我们构建了一个名为PCogAlignBench的基准测试,包含18,000个实例和20个具有不同角色集的个体。最后,我们提出了一个名为PCogAlign的框架,该框架构建了一个基于认知和行为的奖励模型,用于实现个性化对齐。实验结果和人类评估证明了PCogAlignBench的可靠性以及我们提出的PCogAlign的有效性。我们将在https://github.com/NLPGM/PCogAlign开源所构建的基准测试和代码。
近期研究表明,在少量高质量数据集上对大型语言模型(LLMs)进行监督微调,能够显著提升其推理能力。然而,尽管全参数微调(Full FT)效果显著,但其计算成本高昂,且易出现过拟合和灾难性遗忘问题,尤其在数据有限时更为突出。稀疏微调方法通过仅更新模型参数的一小部分,在效率与效果之间取得了良好平衡,此前已取得显著成功。但在LLM时代,由于难以准确识别对推理至关重要的参数,稀疏微调的发展相对滞后。本研究中,我们提出,经过低秩近似后具有最大幅度的权重是微调的关键权重,我们称之为“主权重”。令人惊讶的是,基于幅度的稀疏微调作为LLM微调的基线表现不佳,但在降秩后却变得极为有效。这些发现启发了我们的方法:低秩引导的稀疏微调(LIFT)。LIFT在整个训练过程中仅更新前5%的主权重,在推理任务上持续优于全参数微调,同时保持了与流行的高效参数微调方法相当的内存效率。除了在算术推理等目标领域表现出色外,与全参数微调和LoRA相比,LIFT还能保留多达20%的源领域知识。我们的代码已公开于:https://github.com/zihanghliu/LIFT。
通过视觉数据理解城市社会经济状况,对于可持续城市发展和政策规划而言,是一项既具挑战性又至关重要的任务。本研究引入了CityLens,一个旨在评估大规模语言视觉模型(LLVMs)从卫星和街景图像预测社会经济指标能力的综合基准。我们构建了一个多模态数据集,覆盖全球17个城市,涵盖经济、教育、犯罪、交通、健康和环境六大关键领域,全面反映了城市生活的多维度特征。基于此数据集,我们定义了11项预测任务,并采用三种评估范式:直接指标预测、标准化指标估计和基于特征的回归。我们对17种前沿的LLVMs进行了基准测试。结果表明,尽管LLVMs展现出良好的感知与推理能力,但在预测城市社会经济指标方面仍存在局限。CityLens为诊断这些局限提供了一个统一框架,并指导未来利用LLVMs理解和预测城市社会经济模式的研究方向。我们的代码和数据集已通过https://github.com/tsinghua-fib-lab/CityLens开源。
本文探讨了在大规模多语言持续预训练实践中的一个关键设计决策——并行数据的引入。具体而言,我们研究了双语翻译数据对Llama3系列模型适应500种语言的大规模多语言调整的影响。为此,我们构建了MaLA双语翻译语料库,包含超过2,500种语言对的数据。随后,我们开发了EMMA-500 Llama 3套件,包含四个大规模多语言模型——这些模型从Llama 3系列基础模型出发,通过多达671B个token的多样化数据混合进行持续预训练——并探索了在有无双语翻译数据的情况下进行持续预训练的效果。在7项任务和12个基准上的全面评估表明,双语数据往往能增强语言迁移和性能,尤其是对于低资源语言。我们开源了MaLA语料库、EMMA-500 Llama 3套件相关资源、代码及模型生成结果。
解码神经信号中的连续语言仍然是神经科学与人工智能交叉领域的一项重大挑战。我们提出了Neuro2Semantic,一种新颖的框架,能够从颅内脑电图(iEEG)记录中重建感知语音的语义内容。我们的方法包含两个阶段:首先,基于LSTM的适配器将神经信号与预训练的文本嵌入对齐;其次,校正模块直接从这些对齐的嵌入中生成连续、自然的文本。这一灵活的方法克服了以往解码方法的局限,实现了无约束的文本生成。Neuro2Semantic仅需30分钟的神经数据即可实现强劲性能,在低数据环境下超越了近期的一项最先进方法。这些成果凸显了其在脑机接口和神经解码技术中实际应用的潜力。
双耳渲染旨在基于单声道音频及说话者与听者的位置,合成模拟自然听觉的双耳音频。尽管已有诸多方法尝试解决此问题,但在渲染质量和流式推理方面仍面临挑战。要合成与真实录音难以区分的高质量双耳音频,需精确建模双耳线索、房间混响及环境音。此外,实际应用场景还要求具备流式推理能力。为应对这些挑战,我们提出了一个基于流匹配的流式双耳语音合成框架——BinauralFlow。我们将双耳渲染视为生成问题而非回归问题,并设计了一个条件流匹配模型以渲染高质量音频。同时,我们构建了一种因果U-Net架构,该架构仅依据过去信息估计当前音频帧,从而适配生成模型的流式推理需求。最后,我们引入了一套连续推理流程,整合了流式短时傅里叶变换/逆变换操作、缓冲库、中点求解器及早期跳过策略,以提升渲染的连续性与速度。定量与定性评估均表明,我们的方法在性能上超越了当前最先进的技术。一项感知研究进一步揭示,我们的模型与真实录音的混淆率高达42%,几乎难以分辨。
尽管R1类模型在推理和规划方面取得了进展,但大型语言模型(LLMs)在处理需要精确计算、符号操作、优化和算法推理的任务时仍面临挑战,因为文本推理缺乏代码执行的严谨性。一个关键难题是让LLMs能够决定何时使用文本推理,何时生成代码。虽然OpenAI训练模型在需要时调用代码解释器,但公开研究缺乏关于如何调整预训练LLMs以有效利用代码并泛化到多样化任务的指导。我们提出了R1-Code-Interpreter,这是一个通过多轮监督微调(SFT)和强化学习(RL)训练的纯文本LLM扩展,能够在逐步推理过程中自主生成多个代码查询。我们精心策划了144个推理和规划任务(107个用于训练,37个用于测试),每个任务包含超过200个多样化问题。我们使用多种SFT和RL策略对Qwen-2.5模型(3B/7B/14B)进行微调,探讨了不同答案格式、推理与非推理模型、冷启动与热启动、GRPO与PPO、以及掩码与非掩码代码输出的效果。与之前针对狭窄领域的RL工作不同,我们发现代码解释器训练由于任务多样性和代码执行成本高而显著困难,凸显了SFT阶段的关键作用。我们的最终模型R1-CI-14B在37个测试任务上的平均准确率从44.0%提升至64.1%,超越了GPT-4o(纯文本:58.6%),并接近了使用代码解释器的GPT-4o(70.9%),通过代码生成实现了自检行为的涌现。数据集、代码和模型可在https://github.com/yongchao98/R1-Code-Interpreter 和 https://huggingface.co/yongchao98 获取。
多模态大语言模型(MLLMs)在视觉问答等任务中表现出色,但其推理过程更多依赖于记忆中的世界知识,还是输入图像中的视觉信息,尚不明确。为探究这一问题,我们引入了Visual CounterFact,一个包含视觉真实性反事实的新数据集,该数据集将世界知识先验(如红色草莓)与视觉输入(如蓝色草莓)直接对立。通过使用Visual CounterFact,我们发现模型预测最初反映的是记忆中的先验知识,但在模型的中后期层逐渐转向视觉证据。这一动态揭示了两种模态之间的竞争,最终在评估阶段视觉输入会覆盖先验知识。为控制这一行为,我们提出了“像素对先验”(PvP)导向向量,这是一种通过激活层干预来引导模型输出偏向世界知识或视觉输入的机制。平均而言,PvP成功地将92.5%的颜色预测和74.6%的大小预测从先验知识转向反事实。这些发现共同为解释和控制多模态模型中的事实行为提供了新工具。
获取大规模且高度一致的情感语音数据仍然是语音合成领域的一大挑战。本文提出了MIKU-PAL,一种全自动的多模态流程,用于从未标记的视频数据中提取高一致性的情感语音。通过利用面部检测与追踪算法,我们开发了一套基于多模态大语言模型(MLLM)的自动情感分析系统。实验结果表明,MIKU-PAL能够达到人类级别的准确率(在MELD数据集上为68.5%)和卓越的一致性(Fleiss kappa分数为0.93),同时成本更低、速度更快。借助MIKU-PAL提供的高质量、灵活且一致的标注,我们能够标注多达26种细粒度的语音情感类别,经人类标注者验证,合理性评分达到83%。基于我们提出的系统,我们进一步发布了细粒度情感语音数据集MIKU-EmoBench(131.2小时),作为情感文本到语音及视觉语音克隆的新基准。
本研究探讨了无源域适应(Source-Free Domain Adaptation, SFDA)问题,即在无法访问源数据的情况下,模型如何适应目标域。为此,我们引入了一种新的增强技术——混洗补丁混合(Shuffle PatchMix, SPM)以及一种创新的重加权策略,以提升模型性能。SPM通过混洗并融合图像补丁,生成多样且具有挑战性的增强样本,而重加权策略则优先考虑可靠的伪标签,从而减轻标签噪声的影响。这些技术在处理较小数据集(如PACS)时尤为有效,因为这类数据集更容易出现过拟合和伪标签噪声问题。我们在三大主流基准测试——PACS、VisDA-C和DomainNet-126上取得了最先进的成果。特别是在PACS数据集上,单目标和多目标设置下的准确率分别提升了7.3%(从79.4%增至86.7%)和7.2%,而在DomainNet-126和VisDA-C上则分别实现了2.8%和0.7%的提升。这种结合先进增强技术与稳健伪标签重加权的方法,为SFDA设立了新的基准。相关代码已发布于:https://github.com/PrasannaPulakurthi/SPM。
高效编译量子操作仍然是扩展量子计算规模的主要瓶颈。当前最先进的方法通过将搜索算法与基于梯度的参数优化相结合,实现了较低的编译误差,但这些方法耗时长,且需要多次调用量子硬件或昂贵的经典模拟,使其扩展性受到限制。最近,机器学习模型作为一种替代方案出现,尽管目前它们仅限于离散门集。在此,我们提出了一种多模态去噪扩散模型,该模型能够同时生成电路结构及其连续参数,以编译目标酉矩阵。它利用了两个独立的扩散过程:一个用于离散门选择,另一个用于参数预测。我们在不同实验中对该模型进行了基准测试,分析了该方法在不同量子比特数量、电路深度和参数化门比例下的准确性。最后,通过利用其快速生成电路的能力,我们创建了特定操作的大规模电路数据集,并利用这些数据集提取出有价值的启发式信息,这些信息有助于我们在量子电路合成领域获得新的洞见。