每日精选AI研究论文及翻译
近期,以推理为核心的语言模型研究进展突显了强化学习(RL)作为一种与可验证奖励对齐模型的有前景方法。然而,关于RL是否真正扩展了模型的推理能力,还是仅仅放大了基础模型分布中已存在的高奖励输出,以及持续增加RL计算资源是否能可靠地提升推理性能,仍存在争议。在本研究中,我们通过展示长期RL(ProRL)训练能够发掘基础模型即使经过大量采样也无法触及的新推理策略,挑战了现有假设。我们提出了ProRL,一种融合了KL散度控制、参考策略重置及多样化任务集的新型训练方法。实证分析表明,经过RL训练的模型在广泛的pass@k评估中持续超越基础模型,包括那些基础模型无论尝试多少次都完全失败的情境。我们进一步揭示,推理边界的提升与基础模型的任务胜任度及训练时长密切相关,暗示RL能够随时间探索并填充解决方案空间的新区域。这些发现为理解RL在何种条件下能实质性地扩展语言模型的推理边界提供了新见解,并为未来面向长期推理的RL研究奠定了基础。我们已发布模型权重以支持进一步研究:https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B。
本文介绍了AlphaOne(alpha1),一个用于在测试时调控大型推理模型(LRMs)推理进程的通用框架。alpha1首先引入了alpha时刻,它通过一个通用参数alpha来表征缩放后的思维阶段。在这一预alpha时刻的缩放阶段内,它通过将推理过渡令牌的插入建模为伯努利随机过程,动态调度慢速思维的转换。在alpha时刻之后,alpha1使用思维结束令牌确定性地终止慢速思维,从而促进快速推理和高效答案生成。该方法通过实现灵活且密集的慢速到快速推理调节,统一并推广了现有的单调缩放方法。在数学、编程和科学领域等多个具有挑战性的基准测试上进行的广泛实证研究,展示了alpha1卓越的推理能力和效率。项目页面:https://alphaone-project.github.io/
近期,视觉-语言模型(VLMs)在理解视频中的时空关系方面取得了显著进展。然而,当空间信息被遮蔽时,这些模型难以捕捉纯粹的时间模式。我们引入了SpookyBench,一个基准测试,其中信息仅编码在噪声状帧的时间序列中,模拟了从生物信号到隐蔽通信的自然现象。有趣的是,尽管人类能以超过98%的准确率识别这些序列中的形状、文本和模式,最先进的VLMs却实现了0%的准确率。这一性能差距揭示了一个关键局限:过度依赖帧级空间特征,以及无法从时间线索中提取意义。此外,当在空间信噪比(SNR)较低的数据集上训练时,模型的时间理解能力比人类感知退化得更快,尤其是在需要精细时间推理的任务中。克服这一局限将需要新的架构或训练范式,以将空间依赖性与时间处理解耦。我们的系统分析表明,这一问题在不同模型规模和架构中普遍存在。我们发布SpookyBench,旨在促进时间模式识别的研究,并弥合人类与机器在视频理解方面的差距。数据集和代码已发布在我们的项目网站上:https://timeblindness.github.io/。
生成能够忠实捕捉现实世界分布统计结构的合成数据,是数据建模领域的一项根本性挑战。传统方法通常依赖于强参数化假设或手动设计结构,在高维或异构领域中表现欠佳。大型语言模型(LLMs)的最新进展揭示了其作为现实世界分布灵活高维先验的潜力。然而,在数据合成应用中,基于标准LLM的采样效率低下,受限于固定上下文长度,且难以确保统计对齐。鉴于此,我们提出了LLMSynthor,一个将LLM转化为由分布反馈引导的结构感知模拟器的通用数据合成框架。LLMSynthor将LLM视为非参数Copula模拟器,用于建模高阶依赖关系,并引入LLM提议采样,生成有依据的提议分布,无需拒绝采样即可提升采样效率。通过在摘要统计空间内最小化差异,迭代合成循环在逐步揭示并精炼潜在生成结构的同时,实现了真实数据与合成数据的对齐。我们在隐私敏感领域(如电子商务、人口统计和移动性)的异构数据集上,对LLMSynthor进行了控制环境和真实场景的评估,这些数据集涵盖了结构化和非结构化格式。LLMSynthor生成的合成数据展现出高统计保真度、实际应用价值及跨数据适应性,使其成为经济学、社会科学、城市研究等多个领域的宝贵工具。
验证器在大型语言模型(LLM)推理中扮演着至关重要的角色,特别是在强化学习等后训练技术中不可或缺。然而,针对复杂编程问题获取可靠的验证器颇具挑战,因为精心伪装的不正确解决方案可能仅能通过人工精心编写的边缘案例来发现,而这些案例难以自动合成。为解决这一难题,我们提出了HARDTESTGEN,一个利用LLM进行高质量测试合成的流程。通过该流程,我们构建了一个全面的竞争性编程数据集HARDTESTS,包含47,000个问题及合成的高质量测试。与现有测试相比,HARDTESTGEN生成的测试在评估LLM生成的代码时,精确度提升了11.3个百分点,召回率提高了17.5个百分点。对于更复杂的问题,精确度的提升幅度甚至可达40个百分点。此外,HARDTESTS在模型训练中也展现出更高的效率,这通过下游代码生成性能的衡量得以证实。我们将在https://leililab.github.io/HardTests/开源我们的数据集及合成流程。
我们提出了v1,一种对多模态大语言模型(MLLMs)的轻量级扩展,它能够在推理过程中实现选择性视觉重访。当前MLLMs通常仅一次性处理视觉输入并完全依赖内部记忆进行推理,而v1引入了一种简单的指向-复制机制,使模型能够在整个推理过程中动态检索相关图像区域。该机制以最小改动增强了现有架构,允许模型根据其不断演变的假设情境化访问视觉标记。为了训练这一能力,我们构建了v1g数据集,包含30万条带有交错视觉定位标注的多模态推理轨迹。在三个多模态数学推理基准——MathVista、MathVision和MathVerse上的实验表明,v1相较于同类基线模型持续提升了性能,尤其是在需要细粒度视觉参考和多步推理的任务上。我们的结果表明,动态视觉访问是增强基于现实的多模态推理的一个有前景的方向。代码、模型及数据将公开发布,以支持未来研究。
故事可视化旨在生成一系列与给定叙事和参考图像视觉上连贯的图片,随着生成模型的近期进展,该领域已取得显著进步。为了进一步提升故事可视化框架在现实场景中的表现,我们引入了一个全面的评估基准——ViStoryBench。我们收集了涵盖多种故事类型和艺术风格的多样化数据集,确保模型能在不同情节(如喜剧、恐怖)和视觉美学(如动漫、3D渲染)等多个维度上接受评估。ViStoryBench精心设计,以平衡叙事结构和视觉元素,包含单一及多重主角的故事,用以测试模型保持角色一致性的能力。此外,它还囊括了复杂情节和精细的世界构建,挑战模型生成准确视觉内容的能力。为确保全面比较,我们的基准整合了多种评估指标,覆盖关键方面。这一结构化和多层面的框架使研究人员能够深入识别不同模型的优势与不足,从而推动有针对性的改进。
近期,大型语言模型(如DeepSeek-R1)的推理能力引发了爆炸性关注,其通过基于强化学习的微调框架(例如群体相对策略优化GRPO)展现了显著的成功。然而,此类推理能力在视觉基础模型,包括DINO系列等表征模型中,仍未被充分探索且明显缺失。本研究中,我们提出了DINO-R1,这是首次尝试利用强化学习激励视觉基础模型视觉上下文推理能力的探索。具体而言,DINO-R1引入了群体相对查询优化(GRQO),一种专为基于查询的表征模型设计的新型强化式训练策略,该策略依据群体归一化的对齐质量计算查询级奖励。同时,我们应用KL正则化稳定对象性分布,以减少训练的不稳定性。这种联合优化实现了跨查询的密集且富有表达力的监督,同时缓解了过拟合和分布漂移问题。基于Grounding-DINO,我们训练了一系列DINO-R1家族模型,这些模型集成了视觉提示编码器和视觉引导的查询选择机制。在COCO、LVIS和ODinW上的大量实验表明,DINO-R1显著超越了监督微调基线,在开放词汇和封闭集视觉提示场景中均实现了强大的泛化能力。
自动化AI研究具有加速科学进步的巨大潜力,然而当前的AI智能体在应对严谨、端到端实验的复杂性方面仍面临挑战。我们推出了EXP-Bench,这是一个新颖的基准测试,旨在系统评估AI智能体在源自有影响力的AI出版物的完整研究实验中的表现。给定一个研究问题和不完整的初始代码,EXP-Bench挑战AI智能体提出假设、设计并实施实验程序、执行实验并分析结果。为了能够创建如此复杂且高保真的真实任务,我们设计了一个半自动化流程,从这些研究论文及其相关的开源代码中提取并结构化关键的实验细节。通过这一流程,EXP-Bench从51篇顶级AI研究论文中精选了461个AI研究任务。对基于大型语言模型(LLM)的领先智能体,如OpenHands和IterativeAgent在EXP-Bench上的评估显示,它们在个别实验方面的得分,如设计或实施正确性,偶尔能达到20-35%,但完成可执行实验的成功率仅为0.5%。通过识别这些瓶颈并提供现实的逐步实验程序,EXP-Bench成为未来AI智能体提升其进行AI研究实验能力的重要工具。EXP-Bench已在https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench开源。
CAPTCHA已成为在现实应用中部署网络代理的关键瓶颈,常常阻碍其完成端到端的自动化任务。尽管现代多模态大语言模型(MLLM)代理在静态感知任务中展现了令人瞩目的性能,但它们在处理如CAPTCHA这类交互式、多步骤推理挑战方面的能力尚未得到充分检验。为填补这一空白,我们推出了Open CaptchaWorld,这是首个专门设计用于通过多样化和动态的CAPTCHA谜题来评估MLLM驱动代理视觉推理与交互能力的网络基准与平台。我们的基准涵盖了20种现代CAPTCHA类型,总计225个CAPTCHA,并采用我们提出的新指标——CAPTCHA推理深度进行标注,该指标量化了解决每个谜题所需的认知与操作步骤数。实验结果显示,人类几乎总能获得接近满分的成绩,而最先进的MLLM代理则表现欠佳,其中Browser-Use Openai-o3的成功率最高仅为40.0%,远低于人类水平的93.3%。这凸显了Open CaptchaWorld作为诊断当前多模态代理局限性和指导开发更强大多模态推理系统的重要基准价值。代码与数据可通过此https链接获取。
基于可验证奖励的强化学习(RLVR)近期已成为一种强大的范式,用于大型语言模型(LLMs)的后期训练,在具有结构化、可验证答案的任务上实现了最先进的性能。将RLVR应用于多模态大型语言模型(MLLMs)展现出巨大的潜力,但由于视觉-语言任务更为广泛且异质,要求模型具备细致的视觉、逻辑和空间能力,这一过程变得复杂。因此,在多个数据集上使用RLVR训练MLLMs虽有益处,却因不同数据集间交互导致目标冲突而带来挑战,凸显了优化数据集混合策略以提升泛化与推理能力的必要性。我们提出了一种系统化的多模态LLM RLVR后期训练框架,包含严谨的数据混合问题公式化及基准实现。具体而言,(1)我们构建了一个包含多种可验证视觉-语言问题的数据集,并支持多领域在线RL学习,利用不同的可验证奖励,开发了多模态RLVR框架;(2)我们提出了一种数据混合策略,该策略能够从数据混合分布中预测RL微调结果,进而优化最佳混合方案。全面实验表明,结合混合预测策略的多领域RLVR训练,能显著提升MLLM的通用推理能力。我们的最佳混合方案使后期训练模型在分布外基准测试上的准确率平均提升了5.24%,相较于采用均匀数据混合的同一模型,以及相比预微调基线,总共提升了20.74%。
合成包括身体运动、手部运动和物体运动在内的全身操控关节物体,是虚拟人及机器人领域中一项至关重要却极具挑战性的任务。其核心挑战主要来自两方面。首先,实现逼真的全身运动需要手部与身体其他部位紧密协调,因为在操控过程中它们的动作相互依存。其次,关节物体的操控通常涉及高自由度,并需更高的精确度,往往要求手指精确放置于特定区域以驱动可动部件。为应对这些挑战,我们提出了一种新颖的协调扩散噪声优化框架。具体而言,我们在三个专门针对身体、左手和右手的扩散模型上进行噪声空间优化,每个模型均基于其自身的运动数据集训练,以提升泛化能力。通过沿人体运动链的梯度流,协调自然形成,使得全局身体姿态能够高保真地响应手部运动目标。为进一步增强手与物体交互的精确度,我们采用了基于基础点集(BPS)的统一表示方法,其中末端执行器的位置被编码为与用于物体几何的同一BPS之间的距离。这一统一表示捕捉了手与关节物体部件之间细粒度的空间关系,生成的轨迹作为目标引导扩散噪声的优化,从而产生高度精确的交互运动。我们进行了大量实验,结果表明,我们的方法在运动质量和物理合理性上均优于现有技术,并支持多种功能,如物体姿态控制、行走与操控同步执行,以及仅凭手部数据生成全身动作。
大型语言模型(LLMs)从互联网中记忆了大量先验知识,这些知识虽有助于其下游任务的表现,但也可能使其输出偏向错误或带有偏见的结果。在本研究中,我们探讨了关于流行主题的知识如何影响视觉语言模型(VLMs)在标准、客观的视觉任务(如计数与识别)上的准确性。我们发现,当前最先进的VLMs存在显著偏见(例如,无法识别在阿迪达斯三叶草标志上新增的第四条条纹),在涵盖动物、标志、国际象棋、棋盘游戏、视错觉及图案网格等七个多样化领域的计数任务中,平均准确率仅为17.05%。在反事实图像中插入描述主题名称的文本(如“阿迪达斯”)会进一步降低VLMs的准确性。VLMs的偏见如此强烈,即便指示其复核结果或仅依赖图像细节作答,计数准确率平均仅提升约2个百分点。本研究揭示了VLMs的一种有趣失效模式,并提供了一个自动化框架用于测试VLMs的偏见。代码与数据可访问:vlmsarebiased.github.io。
大语言模型(LLMs)可信度的一个关键要素在于其不确定性信息的可靠传达,然而LLMs在传递错误主张时往往使用肯定性语言,导致过度依赖和信任度下降。我们首次系统性地研究了LLMs的忠实置信度校准问题,通过一系列模型、数据集及提示策略,评估了模型运用语言表达不确定性以真实反映其内在不确定性的能力。研究结果表明,LLMs在此任务上普遍表现不佳,现有干预措施亦显不足:标准提示方法仅带来边际改善,而现有的基于事实性的校准技术甚至可能损害忠实校准。为填补这一关键空白,我们引入了MetaFaith,一种受人类元认知启发的新型基于提示的校准方法。实验证明,MetaFaith在不同模型和任务领域中均能稳健提升忠实校准效果,使忠实度最高提升61%,并在人类评估中,相较于原始生成内容,取得了83%的胜率。
文本转语音(TTS)基准测试往往难以全面评估模型在处理细腻且语义复杂文本时的表现。基于EmergentTTS,我们推出了EmergentTTS-Eval,这是一个涵盖六大挑战性TTS场景的综合基准:情感表达、副语言特征、外来词汇、句法复杂度、复杂发音(如网址、公式)以及疑问句处理。尤为关键的是,我们的框架实现了测试用例生成与评估的自动化,使得基准易于扩展。从少量人工编写的种子提示出发,我们利用大型语言模型(LLMs)迭代扩展这些提示,针对特定的结构、语音和韵律挑战,最终生成了1,645个多样化的测试案例。此外,我们采用“模型即评委”的方法,借助大型音频语言模型(LALM)从多个维度评估语音质量,包括情感表达、韵律、语调及发音准确性。我们在EmergentTTS-Eval上评估了如11Labs、Deepgram及OpenAI的4o-mini-TTS等顶尖开源与专有TTS系统,展示了该基准在揭示细微性能差异方面的能力。结果表明,“模型即评委”方法提供了稳健的TTS评估,并与人类偏好高度相关。我们已开源评估代码https://github.com/boson-ai/EmergentTTS-Eval-public及数据集https://huggingface.co/datasets/bosonai/EmergentTTS-Eval。
近期,利用扩散模型先验辅助单目几何估计(如深度和法线)的方法因其强大的泛化能力而备受关注。然而,现有研究大多聚焦于在单个视频帧的相机坐标系内估计几何属性,忽视了扩散模型在确定帧间对应关系方面的固有潜力。本研究中,我们证明通过恰当的设计与微调,视频生成模型的内在一致性可被有效用于实现一致的几何估计。具体而言,我们:1)选取与视频帧具有相同对应关系的全局坐标系下的几何属性作为预测目标;2)提出一种新颖且高效的条件化方法,通过重用位置编码实现;3)通过对共享相同对应关系的多个几何属性进行联合训练,提升性能。我们的成果在预测视频全局几何属性方面展现出卓越性能,并可直接应用于重建任务。即便仅基于静态视频数据训练,我们的方法也显示出向动态视频场景泛化的潜力。
测试时计算能力的提升,使得多模态大语言模型能够生成更长的推理链,从而在诸如多模态数学推理等任务上展现出强劲性能。然而,这种增强的推理能力往往伴随着幻觉的增加:随着生成内容变长,模型倾向于偏离图像基础内容,更多地依赖语言先验。注意力分析表明,较长的推理链导致对视觉输入的关注度降低,这加剧了幻觉现象。为系统研究这一现象,我们引入了RH-AUC指标,它量化了模型感知准确率随推理长度变化的情况,使我们能评估模型在推理过程中是否保持了视觉基础。同时,我们发布了RH-Bench诊断基准,涵盖多种多模态任务,旨在评估推理能力与幻觉之间的权衡。我们的分析揭示:(i) 更大模型通常在推理与感知间达到更好的平衡;(ii) 这种平衡更多受训练数据的类型和领域影响,而非其总体数量。这些发现强调了同时考虑推理质量与感知保真度的评估框架的重要性。
长期以来,利用扩散模型生成精确的多语言文本一直是人们追求的目标,但这一挑战依然存在。近期的方法在单一语言文本渲染方面取得了进展,然而任意语言的渲染仍是一个未被探索的领域。本文介绍了EasyText,一个基于DiT(扩散变换器)的文本渲染框架,该框架通过将去噪潜在空间与编码为字符标记的多语言字符标记相连接。我们提出了字符定位编码和位置编码插值技术,以实现可控且精确的文本渲染。此外,我们构建了一个包含100万条多语言图文标注的大规模合成文本图像数据集,以及一个包含2万张高质量标注图像的数据集,分别用于预训练和微调。广泛的实验与评估验证了我们的方法在多语言文本渲染、视觉质量及布局感知文本集成方面的有效性和先进性。
我们证明,在不修改模型权重或改变输出预测的前提下,多个开源权重的大型语言模型(LLMs)的推理操作可以映射到一个与输入序列完全等价的线性系统。借鉴图像扩散模型中展现的局部或分段线性技术,我们策略性地调整了针对给定输入序列的梯度计算,用于下一个词预测,使得模型的雅可比矩阵几乎精确地通过一个线性系统再现前向预测。我们在多个模型(包括Llama 3、Gemma 3、Qwen 3、Phi 4、Mistral Ministral和OLMo 2,直至Llama 3.3 70B Q4)上验证了这一方法,并通过分离雅可比矩阵的奇异值分解展示了这些LLMs在极低维子空间中运行,其中许多最大的奇异向量解码为与最可能输出词相关的概念。此方法还使我们能够将每一连续层(及其注意力机制和MLP组件)的操作视为近乎精确的线性系统,并观察语义概念的形成。尽管现代LLMs具有强大的表达能力和全局非线性,但通过近乎精确的局部线性分解,我们可以解读其内部表示,并在下一个词预测过程中揭示可解释的语义结构。
推测解码(Speculative Decoding, SD)是一种有望加速大型语言模型(LLMs)解码过程的方法。SD的效率主要取决于草稿模型与验证模型之间的一致性。然而,现有的草稿生成方法通常需要额外训练模块,这在实现和确保跨多种LLMs的兼容性方面存在挑战。本文提出了一种上下文层跳跃策略CLaSp,用于自推测解码。与先前方法不同,CLaSp无需额外的草稿模块或额外训练,而是通过跳过验证模型的中间层来构建压缩的草稿模型,采用即插即用机制。具体而言,我们开发了一种动态规划算法,该算法利用上一验证阶段的完整隐藏状态作为目标,优化层跳跃过程。这使得CLaSp能够在每次验证后动态调整其层跳跃策略,而无需依赖预先优化的跳跃层集合。在多种下游任务上的实验结果表明,CLaSp在LLaMA3系列模型上实现了1.3倍至1.7倍的加速,且未改变生成文本的原始分布。
尽管思维链推理和强化学习(RL)推动了自然语言处理领域的突破,但它们在生成式视觉模型中的整合仍未被充分探索。我们提出了ReasonGen-R1,一个两阶段框架:首先,通过在全新生成的理由数据集上进行监督微调,赋予自回归图像生成器基于文本的显式“思考”能力;随后,利用群体相对策略优化(Group Relative Policy Optimization)精炼其输出。为了让模型在生成图像前能通过文本进行推理,我们自动生成并发布了一个由模型构建的理由语料库,这些理由与视觉提示配对,从而实现对物体布局、风格和场景构图的受控规划。我们的GRPO算法利用预训练的视觉语言模型提供的奖励信号来评估整体视觉质量,并在每次更新中优化策略。在GenEval、DPG和T2I基准测试上的评估表明,ReasonGen-R1始终优于强大的基线模型和先前的先进模型。更多信息请访问:aka.ms/reasongen。
本研究的核心目标在于提升视听大语言模型(AV-LLMs)中的均衡多模态理解能力,通过解决模态偏差问题,且无需额外训练。当前AV-LLMs中,音频与视频特征通常在解码器中联合处理。尽管这一策略促进了统一的多模态理解,但也可能引入模态偏差,即模型因训练信号不均衡而过度依赖某一模态。为缓解此问题,我们提出了分叉-合并解码(FMD),一种简单而有效的推理时策略,无需额外训练或架构改动。FMD首先通过早期解码层分别处理仅音频和仅视频输入,进行模态特定推理(分叉阶段),随后在剩余层中将所得隐藏状态合并,进行联合推理(合并阶段)。此方法促进了模态间的均衡贡献,并充分利用了跨模态的互补信息。我们在VideoLLaMA2和video-SALMONN这两个代表性AV-LLMs上,采用三个基准数据集评估了该方法。实验结果表明,在专注于音频、视频及视听联合推理的任务上,性能均得到一致提升,验证了推理时干预对于实现稳健多模态理解的有效性。
近期模型蒸馏技术的进展表明,来自高级推理模型(如DeepSeek-R1、OpenAI的o1)的数据能够有效将复杂推理能力迁移至更小、更高效的学生模型。然而,标准实践采用拒绝采样,舍弃了错误的推理示例——这些数据虽宝贵却常被忽视。本文探讨了一个关键问题:在离线环境下,如何有效利用正负蒸馏推理轨迹以最大化大型语言模型(LLM)的推理性能?为此,我们提出了强化蒸馏(REDI)这一两阶段框架。第一阶段通过监督微调(SFT)从正面轨迹中学习;第二阶段则利用我们提出的REDI目标,结合正负轨迹进一步优化模型。这一新颖目标是一个简单、无需参考的损失函数,在此蒸馏场景下超越了DPO和SimPO等现有方法。我们的实证评估显示,REDI在数学推理任务上优于基于拒绝采样的SFT或结合DPO/SimPO的SFT基线。值得注意的是,Qwen-REDI-1.5B模型仅基于开放数据集Open-R1中的13.1万条正负示例进行后训练,在MATH-500(pass@1)上取得了83.1%的得分。其性能在多个数学推理基准上匹配甚至超越了DeepSeek-R1-Distill-Qwen-1.5B(该模型基于80万条专有数据进行后训练),为使用公开可用数据离线后训练的1.5B模型树立了新的性能标杆。
我们推出DexUMI——一个利用人手作为自然接口的数据收集与策略学习框架,旨在将灵巧操作技能迁移至多种机器人手。DexUMI包含硬件与软件适配,以最小化人手与各类机器人手之间的实体差异。硬件适配通过穿戴式手部外骨骼桥接运动学差距,不仅允许在数据收集中直接提供触觉反馈,还将人类动作调整为机器人手可执行的动作。软件适配则通过高保真机器人手图像修复技术,在视频数据中替换人手,从而弥合视觉差异。我们通过在两种不同的灵巧机器人手硬件平台上进行全面的真实世界实验,展示了DexUMI的能力,平均任务成功率达到了86%。
多模态大语言模型(MLLMs)在处理复杂多模态上下文任务时展现了卓越性能。然而,这些模型在处理多模态上下文时是否表现出模态偏好仍鲜有研究。为探讨这一问题,我们首先构建了一个MC\textsuperscript{2}基准测试,在受控的证据冲突场景下系统评估模态偏好,即模型在基于多模态冲突证据做出决策时倾向于优先考虑某一模态的倾向。广泛的评估结果显示,所有测试的18个MLLMs普遍存在明显的模态偏差,且模态偏好可受外部干预影响。深入分析表明,偏好方向可在MLLMs的潜在表征中捕捉到。基于此,我们提出了一种基于表征工程的探测与引导方法,无需额外微调或精心设计的提示,即可明确控制模态偏好。该方法有效增强了朝向期望方向的模态偏好,并应用于下游任务如幻觉缓解和多模态机器翻译,取得了显著的改进效果。
角色扮演语言代理(RPLAs)旨在模拟角色,以实现逼真且引人入胜的人机交互。然而,传统的奖励模型在可扩展性和适应主观对话偏好方面常面临挑战。我们提出了ChARM,一种基于角色的行为自适应奖励模型,通过两项创新应对这些难题:(1)行为自适应边界,显著提升学习效率与泛化能力;(2)自进化机制,利用大规模未标注数据增强训练覆盖范围。此外,我们推出了RoleplayPref,首个专为RPLAs设计的大规模偏好数据集,包含1,108个角色、13个子类别及16,888条双语对话,并配套RoleplayEval专用评估基准。实验结果显示,在偏好排序上较传统Bradley-Terry模型提升了13%。进一步地,将ChARM生成的奖励应用于偏好学习技术(如直接偏好优化)后,在CharacterEval和RoleplayEval上取得了业界领先的成绩。代码与数据集已发布于https://github.com/calubkk/ChARM。
大型语言模型(LLMs)展现出了显著的角色扮演能力,能够灵活地采纳不同人物设定并投入其中。然而,评估这一能力面临重大挑战,因为人工评估既耗费资源,而自动化评估又可能存在偏差。为解决这一问题,我们引入了角色扮演评估(RPEval),这是一个新颖的基准测试,旨在从四个关键维度评估LLM的角色扮演能力:情感理解、决策制定、道德一致性及角色内一致性。本文详细阐述了RPEval的构建过程,并提供了基线评估结果。我们的代码与数据集已发布于https://github.com/yelboudouri/RPEval。
尽管缩放定律已经彻底改变了自然语言处理和计算机视觉领域,三维点云理解尚未达到这一阶段。这主要归因于三维数据集的相对较小规模,以及数据来源的多样性。点云由多种传感器(如深度相机、激光雷达)在不同领域(如室内、室外)捕获,每种传感器都引入了独特的扫描模式、采样密度和语义偏差。这种领域异质性对大规模训练统一模型构成了主要障碍,尤其是在推理时通常无法获取领域标签的现实约束下。在本研究中,我们提出了Point-MoE,一种专家混合架构,旨在实现三维感知中的大规模跨领域泛化。我们展示了标准点云骨干网络在混合领域数据上训练时性能显著下降,而采用简单top-k路由策略的Point-MoE即使在没有领域标签的情况下也能自动专业化专家。我们的实验表明,Point-MoE不仅超越了强大的多领域基线,还能更好地泛化到未见过的领域。这项工作为三维理解指明了一条可扩展的前进道路:让模型在多样化的三维数据中发现结构,而非通过人工筛选或领域监督强加结构。
近期,测试时优化技术的进步显著提升了大型语言模型(LLMs)的推理能力,使其能够解决数学和编程中的高度复杂问题。然而,多模态大型语言模型(MLLMs)的推理能力仍显不足,尤其是在处理复杂的视频语言任务时。针对这一问题,我们提出了SiLVR,一个基于语言的简单视频推理框架,它将复杂的视频理解分解为两个阶段。第一阶段,SiLVR利用多感官输入(如短视频片段描述和音频/语音字幕)将原始视频转化为基于语言的表示。第二阶段,这些语言描述被输入到一个强大的推理LLM中,以解决复杂的视频语言理解任务。为了处理长上下文的多感官输入,我们采用了一种自适应令牌缩减方案,动态决定采样令牌的时间粒度。我们这一简单、模块化且无需训练的视频推理框架在Video-MME(长)、Video-MMMU(理解)、Video-MMLU、CGBench和EgoLife上取得了目前最佳的报告结果。此外,我们针对视频推理能力的实证研究表明,尽管未在视频上明确训练,强大的推理LLMs仍能有效整合来自视频、语音和音频的多感官输入信息,用于视频中的复杂时序、因果、长上下文及知识获取推理任务。代码可在https://github.com/CeeZh/SILVR获取。
在科学呈指数级增长的时代,识别新颖的研究思路对学术界而言至关重要且充满挑战。尽管潜力巨大,但缺乏合适的基准数据集阻碍了新颖性检测的研究。更重要的是,由于文本相似性与思想概念之间的差异,简单地采用现有的自然语言处理技术(如检索后交叉验证)并非放之四海而皆准的解决方案。本文提出利用大型语言模型(LLMs)进行科学新颖性检测(ND),并引入了市场营销和自然语言处理领域的两套新数据集。为构建适用于ND的细致数据集,我们建议基于论文间的关系提取其闭包集,并借助LLMs总结其主要思想。为捕捉思想概念,我们提出通过从LLMs中蒸馏思想层面的知识来训练一个轻量级检索器,以对齐具有相似概念的思想,从而为LLM的新颖性检测实现高效且准确的思想检索。实验表明,在提出的基准数据集上,我们的方法在思想检索和ND任务中持续优于其他方法。代码与数据可在https://anonymous.4open.science/r/NoveltyDetection-10FB/获取。
对比语言-图像预训练(CLIP)已成为基础模型,并广泛应用于多种视觉和多模态任务中。然而,近期研究表明,CLIP在区分图像细节差异方面表现不足,在密集预测和以视觉为中心的多模态任务上表现欠佳。因此,本研究致力于改进现有CLIP模型,旨在尽可能捕捉图像中的视觉细节。我们发现,一种特定的生成模型——unCLIP,为实现这一目标提供了合适的框架。具体而言,unCLIP基于CLIP图像嵌入训练图像生成器,即对CLIP图像编码器进行逆向操作。与CLIP等判别模型相比,生成模型因需学习图像数据分布,故更擅长捕捉图像细节。此外,unCLIP的条件输入空间与CLIP原有的图像-文本嵌入空间保持一致。因此,我们提出对unCLIP进行逆向操作(称为un^2CLIP)以优化CLIP模型。通过这种方式,改进后的图像编码器既能继承unCLIP捕捉视觉细节的能力,又能保持与原始文本编码器的对齐。我们在CLIP已应用的各种任务上评估了改进后的CLIP,包括具有挑战性的MMVP-VLM基准测试、密集预测的开放词汇分割任务以及多模态大语言模型任务。实验结果显示,un^2CLIP显著优于原始CLIP及先前的CLIP改进方法。代码和模型将发布于https://github.com/LiYinqi/un2CLIP。
诸如GPT-4o之类的大型语言模型(LLMs)在恰当的提示下能够处理多种复杂任务。随着每令牌成本的降低,为实际应用微调小型语言模型(SLMs)的优势——更快的推理速度和更低的成本——可能不再明显。在本研究中,我们提供证据表明,对于需要结构化输出的特定领域任务,SLMs仍具备质量优势。我们比较了在生成JSON格式的低代码工作流任务上,微调SLM与提示LLMs的效果。我们发现,尽管良好的提示能产生合理的结果,但微调平均能提升10%的质量。此外,我们还进行了系统的错误分析,以揭示模型的局限性。
大型语言模型(LLMs)已展现出显著潜力,但通过传统微调持续提升其性能仍面临挑战,尤其是在整合其他专业LLMs能力时。诸如集成和权重融合等流行方法需要大量内存,且难以适应不断变化的数据环境。近期研究尝试将多个LLMs的知识转移至单一目标模型,然而,由于候选模型选择及训练流程的灵活性受限,这些方法普遍存在任务间干扰和性能下降的问题。为解决这些问题,我们提出了一种框架,能够自适应地选择并聚合来自不同LLMs的知识,构建一个更强大的单一模型,从而避免集成方法的高内存开销和权重融合的僵化性。具体而言,我们设计了一个自适应选择网络,根据评分识别最相关的源LLMs,从而减少知识干扰。此外,我们提出了一种动态加权融合策略,该策略考虑了候选LLMs的固有优势,并引入了一种反馈驱动的损失函数,防止选择器收敛于单一源子集。实验结果表明,与现有方法相比,我们的方法能够实现更稳定、可扩展的知识聚合过程,同时将知识干扰减少高达50%。代码已发布于https://github.com/ZLKong/LLM_Integration。
在循环神经网络中,隐藏单元的角色通常被视为对记忆的建模,研究重点在于通过门控机制增强信息保留能力。一个较少被探讨的视角则认为,隐藏单元是网络执行计算过程中的积极参与者,而非被动的记忆存储。在本研究中,我们重新审视了双线性操作,这些操作涉及隐藏单元与输入嵌入之间的乘法交互。我们从理论和实证两方面证明,双线性操作构成了表示状态跟踪任务中隐藏状态演化的自然归纳偏置。这些任务是最简单的一类,要求隐藏单元主动参与网络行为的形成。我们还展示了双线性状态更新自然地形成了一个层次结构,对应于复杂度递增的状态跟踪任务,而像Mamba这样的流行线性循环网络则位于该层次结构的最低复杂度中心。
大型语言模型(LLMs)在多种自然语言处理任务中表现出色,但仍易生成有害内容或被恶意利用。尽管已引入安全对齐数据集通过监督微调(SFT)来缓解此类风险,但这些数据集往往缺乏全面的风险覆盖。现有数据集大多侧重于词汇多样性,而忽视了其他关键维度。为解决这一局限,我们提出了一种新颖的分析框架,系统性地衡量对齐数据集在三个核心维度上的风险覆盖:词汇多样性、恶意意图及越狱策略。我们进一步推出了TRIDENT,一个自动化流程,利用基于角色的零样本LLM生成技术,产出跨这些维度的多样化且全面的指令集。每条有害指令均配以伦理对齐的响应,从而形成两个数据集:TRIDENT-Core,包含26,311个示例,以及TRIDENT-Edge,拥有18,773个示例。在TRIDENT-Edge上对Llama 3.1-8B进行微调,展现了显著改进,相较于在WildBreak数据集上微调的最佳基线模型,平均降低了14.29%的伤害评分,并减少了20%的攻击成功率。
语义文本相似度(Semantic Textual Similarity, STS)是自然语言处理(NLP)中的一项关键任务,广泛应用于检索、聚类及理解文本间语义关系等领域。然而,由于缺乏高质量数据集和预训练模型,针对阿拉伯语的STS研究仍显不足。这种资源匮乏限制了阿拉伯语文本语义相似度的准确评估与进展。本文提出了通用阿拉伯文本嵌入模型(General Arabic Text Embedding, GATE),该模型在MTEB基准测试的语义文本相似度任务中达到了业界领先水平。GATE模型结合了嵌套表示学习(Matryoshka Representation Learning)及基于阿拉伯语三元组数据集的混合损失训练方法,这些方法对于提升模型在需要细粒度语义理解任务中的表现至关重要。GATE在STS基准测试中表现优异,较包括OpenAI在内的更大模型实现了20-25%的性能提升,有效捕捉了阿拉伯语独特的语义细微差别。
大型语言模型(LLMs)在通过生成形式化规范来普及自动化推理方面展现出显著潜力。然而,一个根本性的矛盾在于:LLMs本质上是概率性的,而形式验证则要求确定性保证。本文通过全面探究LLM生成的形式化产物中的失败模式及不确定性量化(UQ),致力于弥合这一认识论鸿沟。我们对五个前沿LLMs的系统评估揭示了基于可满足性模理论(SMT)的自动形式化在不同领域对准确性的影响(从逻辑任务上提升+34.8%到事实任务上下降-44.5%),而诸如标记概率熵等已知UQ技术未能有效识别这些错误。我们引入了一种概率上下文无关文法(PCFG)框架来建模LLM输出,从而提炼出更精细的不确定性分类体系。研究发现,不确定性信号具有任务依赖性(例如,逻辑任务中的文法熵,AUROC>0.93)。最终,通过轻量级融合这些信号,实现了选择性验证,在最小化弃权的情况下大幅减少了错误(14-100%),将LLM驱动的形式化转变为一项可靠的工程学科。
AI代理在面向消费者的应用中日益普及,用于协助完成诸如产品搜索、议价及交易执行等任务。本文探讨了一种未来场景,即消费者与商家均授权AI代理全自动化处理议价与交易。我们旨在解答两个关键问题:(1) 不同的大型语言模型(LLM)代理在为用户争取有利交易条件的能力上是否存在差异?(2) 在消费市场中,完全依赖AI代理进行交易自动化会带来哪些风险?为解答这些问题,我们构建了一个实验框架,评估多种LLM代理在真实世界议价与交易情境下的表现。研究发现,AI中介的交易本质上是一场不平衡的游戏——不同代理为其用户达成的结果存在显著差异。此外,LLM中的行为异常可能导致消费者与商家双方遭受财务损失,如过度消费或接受不合理交易。这些结果强调,尽管自动化能提升效率,但也引入了重大风险。用户在将商业决策委托给AI代理时,应保持谨慎。
大型语言模型(LLMs)的涌现能力引发了对其潜在有害滥用的担忧。应对这一问题的核心策略在于检测针对模型的有害查询。现有的检测方法存在缺陷,尤其易受利用模型能力泛化不匹配的攻击影响(例如,使用低资源语言的提示或通过非文本模态如图像和音频提供的提示)。为应对这一挑战,我们提出了OMNIGUARD,一种跨语言和跨模态检测有害提示的方法。该方法(i)识别LLM/MLLM中跨语言或跨模态对齐的内部表示,随后(ii)利用这些表示构建一个语言无关或模态无关的分类器,用于检测有害提示。在多语言环境下,OMNIGUARD将有害提示分类准确率提升了11.57%,对于基于图像的提示提升了20.44%,并在基于音频的提示上设立了新的SOTA(当前最优)。通过重新利用生成过程中计算的嵌入,OMNIGUARD还实现了极高的效率(比次快基线快约120倍)。代码和数据可在以下网址获取:https://github.com/vsahil/OmniGuard。
法律案例检索(Legal Case Retrieval, LCR)是从查询案例中检索相关案例的一项基础任务,对法律专业人士的研究与决策至关重要。然而,现有LCR研究面临两大局限:首先,它们多在规模相对较小的检索语料库(如100至55K案例)上进行评估,且使用的刑事查询类型范围狭窄,难以充分反映现实法律检索场景的复杂性;其次,这些研究依赖基于嵌入或词汇匹配的方法,往往导致表征有限且匹配结果在法律上不相关。为解决这些问题,我们提出:(1) LEGAR BENCH,首个大规模韩语LCR基准,涵盖120万法律案例中的411种多样化犯罪类型查询;(2) LegalSearchLM,一种检索模型,通过对查询案例进行法律要素推理,并通过约束解码直接生成基于目标案例的内容。实验结果表明,LegalSearchLM在LEGAR BENCH上以6-20%的优势超越基线模型,达到最先进性能。此外,该模型在跨域案例上展现出强大的泛化能力,比仅在域内数据上训练的朴素生成模型高出15%。
现代文档检索嵌入方法的一个局限在于,它们通常独立编码同一文档中的段落(片段),往往忽视了文档其余部分的关键上下文信息,而这些信息本可大幅提升单个片段的表征质量。 在本研究中,我们提出了ConTEB(上下文感知文本嵌入基准),这是一个旨在评估检索模型利用文档全局上下文能力的基准。我们的结果表明,在需要上下文的检索场景中,当前最先进的嵌入模型表现欠佳。针对这一局限,我们提出了InSeNT(序列内负样本训练),一种新颖的对比式后训练方法,结合延迟片段池化技术,在保持计算效率的同时增强了上下文表征学习。我们的方法在ConTEB上显著提升了检索质量,且未牺牲基础模型性能。进一步发现,采用我们方法嵌入的片段对次优片段划分策略及更大规模检索语料库展现出更强的鲁棒性。我们已在https://github.com/illuin-tech/contextual-embeddings开源所有相关资源。
本文对大型语言模型(LLM)安全研究的语言多样性进行了全面分析,揭示了该领域以英语为中心的特点。通过对2020年至2024年间*ACL主要自然语言处理会议和研讨会上近300篇出版物的系统回顾,我们发现LLM安全研究存在显著且日益扩大的语言鸿沟,即便是资源丰富的非英语语言也极少受到关注。我们进一步观察到,非英语语言很少作为独立语言进行研究,且英语安全研究在语言文档实践方面表现欠佳。为激励未来多语言安全研究的发展,我们基于调查提出了若干建议,并针对安全评估、训练数据生成及跨语言安全泛化三个具体方向提出了未来研究路径。通过本次调查及所提出的方向,该领域有望为全球多元人口开发出更为稳健、包容的人工智能安全实践。