每日精选AI研究论文及翻译
诸如OpenAI-o1和DeepSeek-R1等大型推理模型(LRMs)通过运用长链思维(CoT)在复杂推理任务中展现了卓越的能力。然而,这些模型由于仅依赖内部推理过程,常出现幻觉和效率低下的问题。本文介绍了一种新型工具集成长链思维推理大模型START(Self-Taught Reasoner with Tools),它通过利用外部工具显著增强了推理能力。通过代码执行,START能够进行复杂计算、自我检查、探索多种方法及自我调试,从而解决了LRMs的局限性。START的核心创新在于其自学习框架,该框架包含两项关键技术:1)提示推理(Hint-infer):我们证明,在LRM的推理过程中插入人工设计的提示(例如,“等等,也许在这里使用Python是个好主意。”)能有效激发其利用外部工具的能力,而无需任何示范数据。提示推理还可作为一种简单有效的序列测试时间扩展方法;2)提示拒绝采样微调(Hint-RFT):Hint-RFT结合了Hint-infer和RFT,通过对LRM通过Hint-infer生成的带有工具调用的推理轨迹进行评分、筛选和修改,随后对LRM进行微调。通过这一框架,我们微调了QwQ-32B模型,实现了START。在博士级科学问答(GPQA)、竞赛级数学基准测试(AMC23、AIME24、AIME25)以及竞赛级代码基准测试(LiveCodeBench)上,START分别达到了63.6%、95.0%、66.7%、47.1%和47.3%的准确率。它显著超越了基础QwQ-32B模型,并与最先进的开放权重模型R1-Distill-Qwen-32B及专有模型o1-Preview的性能相当。
近期,基于视频的多模态大语言模型(Video-LLMs)通过将视频处理为图像帧序列,显著提升了视频理解能力。然而,许多现有方法在视觉骨干网络中独立处理每一帧,缺乏显式的时间建模,这限制了它们捕捉动态模式及高效处理长视频的能力。为解决这些局限,我们提出了STORM(面向多模态大语言模型的时空令牌缩减),一种新颖的架构,它在图像编码器与大语言模型之间引入了一个专门的时间编码器。我们的时间编码器利用Mamba状态空间模型,将时间信息融入图像令牌中,生成能够保留整个视频序列帧间动态的丰富表示。这种增强的编码不仅提升了视频推理能力,还支持有效的令牌缩减策略,包括测试时采样和基于训练的时间与空间池化,从而在不牺牲关键时间信息的前提下,大幅降低了大语言模型的计算需求。通过整合这些技术,我们的方法在提升性能的同时,减少了训练和推理的延迟,实现了在长时间上下文中的高效且稳健的视频理解。广泛的评估表明,STORM在多个长视频理解基准测试中(如MLVU和LongVideoBench上提升超过5%)取得了最先进的成果,同时在固定输入帧数的情况下,计算成本最多降低了8倍,解码延迟减少了2.4至2.9倍。项目页面详见https://research.nvidia.com/labs/lpr/storm。
近期,语音到语音对话系统的进展利用大语言模型(LLM)实现了多模态交互,但仍受限于微调需求、高计算开销及文本与语音的对齐问题。现有的语音增强型LLM常因修改模型而降低对话质量,损害其语言能力。相比之下,我们提出了LLMVoX,一个轻量级、仅含3000万参数、与LLM无关的自回归流式文本转语音(TTS)系统,它能在保持基础LLM全部能力的同时,以低延迟生成高质量语音。相较于语音增强型LLM,我们的方法在保持相近延迟和UTMOS评分的情况下,显著降低了词错误率。通过多队列令牌流系统将语音合成与LLM处理解耦,LLMVoX支持无缝、无限长度的对话。其即插即用设计还便于扩展至不同骨干网络的各种任务。此外,LLMVoX仅需数据集适应即可泛化至新语言,在阿拉伯语语音任务上实现了低字符错误率。我们还集成了LLMVoX与视觉语言模型,创建了一个具备语音、文本和视觉能力的全能模型,无需额外的多模态训练。我们的代码库和项目页面可在https://mbzuai-oryx.github.io/LLMVoX 访问。
我们推出EgoLife项目,旨在开发一款以自我为中心的智能生活助手,通过AI驱动的可穿戴眼镜来陪伴并提升个人效率。为奠定这一助手的基础,我们开展了一项全面的数据收集研究,六名参与者共同生活一周,持续记录他们的日常活动——包括讨论、购物、烹饪、社交和娱乐——使用AI眼镜进行多模态自我中心视角的视频捕捉,并同步记录第三人称视角的视频参考。这一努力成果便是EgoLife数据集,一个包含300小时自我中心视角、人际互动、多视角及多模态的日常生活数据集,并附有详尽的标注。依托此数据集,我们引入了EgoLifeQA,一套长上下文、生活导向的问答任务集,旨在通过解决诸如回忆过往相关事件、监测健康习惯及提供个性化建议等实际问题,为日常生活提供有意义的帮助。针对(1)开发适用于自我中心数据的鲁棒视听模型,(2)实现身份识别,以及(3)在广泛时间信息上支持长上下文问答等关键技术挑战,我们提出了EgoButler,一个集成系统,包含EgoGPT和EgoRAG。EgoGPT是一个在自我中心数据集上训练的全模态模型,在自我中心视频理解方面达到了业界领先水平。EgoRAG则是一个基于检索的组件,支持回答超长上下文问题。我们的实验研究验证了它们的工作机制,揭示了关键因素与瓶颈,为未来改进指明了方向。通过公开我们的数据集、模型和基准测试,我们期望激发自我中心AI助手领域的进一步研究。
随着大型语言模型日益承担起在线内容生成的责任,人们开始担忧其反复处理自身输出所产生的影响。受人类链式沟通中"传话失真"现象的启发,本研究探讨了LLM是否也会在迭代生成过程中类似地扭曲信息。通过基于翻译的实验,我们发现失真会随时间累积,并受到语言选择和链条复杂性的影响。虽然质量下降不可避免,但通过策略性的提示技术可以缓解这一问题。这些发现为讨论AI中介信息传播的长期效应提供了依据,并引发了关于迭代工作流程中LLM生成内容可靠性的重要问题。
大型语言模型(LLMs)的推理能力评估容易因评估基准的数据暴露而被高估。我们引入了一个框架,用于生成语言推理问题,以减少记忆效应对模型性能估计的影响,并应用该框架开发了LINGOLY-TOO,一个具有挑战性的语言推理评估基准。通过开发正字法模板,我们动态地模糊真实语言的书写系统,以生成大量问题变体。这些变体保留了每个解决方案所需的推理步骤,同时降低了特定问题实例出现在模型训练数据中的可能性。我们的实验表明,包括OpenAI o1-preview和DeepSeem R1在内的前沿模型在高级推理方面表现不佳。我们的分析还显示,LLMs在相同问题的不同排列上表现出明显的准确率差异,并且平均而言,在原始正字法中出现的问题上表现更好。我们的发现揭示了LLMs响应生成的不透明性,并提供了证据表明,先前的数据暴露导致了前沿模型推理能力的高估。
理解与推理非语音声音及音乐,对于人类与AI智能体有效与环境互动至关重要。本文介绍Audio Flamingo 2(AF2),一款具备高级音频理解与推理能力的音频-语言模型(ALM)。AF2集成了三大核心要素:(i) 定制的CLAP模型,(ii) 用于细粒度音频推理的合成音频问答数据,以及(iii) 多阶段课程学习策略。凭借仅3B参数的小型语言模型,AF2在超过20项基准测试中表现卓越,超越了大型开源及专有模型。此外,我们首次将音频理解能力扩展至长音频片段(30秒至5分钟),并推出LongAudio,一个专为训练ALM在长音频字幕生成与问答任务上而设计的大规模新颖数据集。通过在LongAudio上微调AF2,其在LongAudioBench——一个专家标注的用于评估ALM长音频理解能力的基准测试中,展现了卓越性能。我们进行了广泛的消融研究,以验证所提方法的有效性。项目网站:https://research.nvidia.com/labs/adlr/AF2/。
我们严格确立了自然语言中支配长程依赖性的二元互信息缩放定律。这一缩放定律,我们证明其与传统两点互信息不同且独立缩放,是理解长上下文语言建模的关键。基于此缩放定律,我们提出了长上下文语言建模(L^2M)条件,该条件将模型有效处理长上下文长度的能力与其用于存储过去信息的潜在状态规模的缩放相关联。我们的结果通过在Transformer模型和状态空间模型上的实验得到了验证。这项工作为引导大语言模型向更长上下文长度发展奠定了理论基础。
我们推出了IFIR,这是首个旨在评估专家领域中指令跟随信息检索(IR)的综合基准。IFIR包含2,426个高质量示例,覆盖了金融、法律、医疗和科学文献四个专业领域的八个子集。每个子集针对一个或多个特定领域的检索任务,模拟了现实场景中定制化指令至关重要的情境。IFIR通过融入不同复杂程度的指令,实现了对指令跟随检索能力的细致分析。我们还提出了一种基于大语言模型(LLM)的新型评估方法,以更精确、可靠地衡量模型在遵循指令方面的表现。通过对15种前沿检索模型(包括基于LLM的模型)进行广泛实验,我们的结果表明,当前模型在有效遵循复杂、领域特定指令方面面临显著挑战。我们进一步提供了深入分析,以凸显这些局限性,为未来检索器的发展提供了宝贵的指导洞见。
Transformer架构已成为广泛机器学习任务,尤其是大型语言模型(LLMs)领域的事实标准。尽管其表现卓越,但在训练深层Transformer网络时仍面临挑战,特别是在层归一化的位置选择上。虽然Pre-Norm结构因其更显著的恒等路径而便于训练,但其性能往往不及Post-Norm。本文提出了一种简单而有效的混合归一化策略——HybridNorm,它融合了Pre-Norm与Post-Norm两者的优势。具体而言,HybridNorm在注意力机制中采用QKV归一化,并在每个Transformer模块的前馈网络(FFN)中应用Post-Norm。这一设计不仅稳定了训练过程,还提升了性能,尤其是在LLMs的背景下。在密集与稀疏架构中的全面实验表明,HybridNorm在各项基准测试中均优于Pre-Norm和Post-Norm方法,达到了最先进的成果。这些发现凸显了HybridNorm作为一种更稳定、更有效的技术,在提升深层Transformer模型训练与性能方面的潜力。代码已公开于https://github.com/BryceZhuo/HybridNorm。
我们推出了FuseChat-3.0,这是一套通过将异构源大型语言模型(LLMs)的优势整合到更为紧凑的目标LLMs中而开发的大型语言模型系列。我们的源模型包括强大的Gemma-2-27B-it、Mistral-Large-Instruct-2407、Qwen-2.5-72B-Instruct以及Llama-3.1-70B-Instruct。针对目标模型,我们聚焦于三种广泛使用的小型变体——Llama-3.1-8B-Instruct、Gemma-2-9B-it和Qwen-2.5-7B-Instruct,以及两种超紧凑选项——Llama-3.2-3B-Instruct和Llama-3.2-1B-Instruct。为了充分利用这些源模型的多样化能力,我们开发了一套专门针对不同任务和领域的数据构建协议。FuseChat-3.0的训练流程包含两个关键阶段:(1)监督微调(SFT)以对齐目标与源模型的分布,(2)直接偏好优化(DPO)以应用来自多个源LLMs的偏好来微调目标模型。最终得到的FuseChat-3.0模型在指令遵循、常识、数学和编程等任务上展现出显著的性能提升。如图1所示,以Llama-3.1-8B-Instruct作为目标模型,我们的融合方法在14个基准测试中平均提升了6.8分。此外,在指令遵循基准AlpacaEval-2和Arena-Hard上分别实现了37.1分和30.1分的显著增益。我们的代码、模型及数据集可在https://github.com/SLIT-AI/FuseChat-3.0获取。
我们推出了Pok\'eChamp,这是一款由大型语言模型(LLMs)驱动的极小极大智能体,专为Pok\'emon对战设计。基于一个适用于双人竞技游戏的通用框架,Pok\'eChamp充分利用了LLMs的通用能力来增强极小极大树搜索。具体而言,LLMs替代了三个关键模块:(1)玩家动作采样,(2)对手建模,以及(3)价值函数估计,使得智能体能够有效利用游戏历史与人类知识,缩小搜索空间并应对部分可观测性。值得注意的是,我们的框架无需额外的LLM训练。我们在广受欢迎的Gen 9 OU格式下评估了Pok\'eChamp。当搭载GPT-4o时,它以76%的胜率击败了现有最佳的基于LLM的机器人,并以84%的胜率战胜了最强的规则型机器人,展现了其卓越性能。即便使用开源的80亿参数Llama 3.1模型,Pok\'eChamp也持续超越此前由GPT-4o驱动的LLM最佳机器人Pok\'ellmon,取得64%的胜率。在Pok\'emon Showdown在线天梯中,Pok\'eChamp预计达到1300-1500的Elo评分,使其跻身人类玩家前30%-10%之列。此外,本研究汇编了最大的真实玩家Pok\'emon对战数据集,包含超过300万场对局,其中高Elo对局逾50万场。基于此数据集,我们建立了一系列对战基准与谜题,以评估特定对战技能。我们还对本地游戏引擎进行了关键更新。我们期望这项工作能促进更多研究,将Pok\'emon对战作为基准,整合LLM技术与博弈论算法,以解决更广泛的多智能体问题。视频、代码及数据集请访问https://sites.google.com/view/pokechamp-llm。
大语言模型(LLM)中的幻觉问题对其在现实世界应用中的安全部署构成了重大挑战。近期研究尝试利用LLM的潜在空间进行幻觉检测,但由于其嵌入主要优化于语言连贯性而非事实准确性,往往难以清晰区分真实与幻觉内容。为此,我们提出了真实性分离向量(Truthfulness Separator Vector, TSV),这是一种轻量且灵活的导向向量,在推理过程中重塑LLM的表示空间,以增强真实输出与幻觉输出之间的分离度,而无需修改模型参数。我们的两阶段框架首先在一小组标注样本上训练TSV,形成紧凑且分离良好的聚类。随后,通过引入未标注的LLM生成数据,采用基于最优传输的伪标签算法结合置信度过滤过程,扩充样本集。大量实验表明,TSV在仅需少量标注数据的情况下即达到了最先进的性能,展现出跨数据集的强大泛化能力,为LLM的实际应用提供了切实可行的解决方案。
近期,文本到视频(T2V)生成技术的进步主要受到两大竞争范式的推动:自回归语言模型和扩散模型。然而,每种范式都存在固有的局限:语言模型在视觉质量和错误累积方面表现欠佳,而扩散模型则缺乏语义理解和因果建模能力。本研究中,我们提出了LanDiff,一种通过粗到细生成策略融合两者优势的混合框架。我们的架构引入了三项关键创新:(1)语义分词器,通过高效的语义压缩将3D视觉特征压缩为紧凑的1D离散表示,实现了高达14,000倍的压缩比;(2)语言模型,用于生成具有高级语义关系的语义标记;(3)流式扩散模型,将粗略语义精炼为高保真视频。实验表明,LanDiff作为一个5B规模的模型,在VBench T2V基准测试中取得了85.43的分数,超越了当前最先进的开源模型Hunyuan Video(13B)及其他商业模型如Sora、Keling和Hailuo。此外,我们的模型在长视频生成领域也达到了业界领先水平,超越了该领域的其他开源模型。我们的演示可在https://landiff.github.io/查看。
专家混合模型(Mixture-of-Experts, MoE)在保持计算效率的同时提升了模型性能,使其非常适合大规模应用。然而,现有MoE范式中的专家各自独立工作,缺乏高质量的专家互动。此外,它们尚未有效扩展到注意力模块,这限制了效率的进一步提升。为解决这些问题,我们提出了专家联盟(Union-of-Experts, UoE),它将Transformer分解为等效的专家群组,并在输入数据和专家之间实施动态路由。我们的方法通过三项关键创新推进了MoE设计:(1)基于张量并行中的矩阵划分,我们对MLP模块和注意力模块进行了等效专家分解。(2)我们开发了两种路由范式:按片数据选择和专家选择,以在不同层级应用路由。(3)我们设计了UoE模型的架构,包括选择性多头注意力(Selective Multi-Head Attention, SMHA)和MLP专家联盟(Union-of-MLP-Experts, UoME)。(4)我们实现了UoE路由与计算操作的并行化,并基于硬件处理分析优化了效率。实验表明,采用UoE的模型在图像和自然语言领域的多项任务中超越了全注意力机制、当前最先进的MoE及高效Transformer。源代码已发布于https://github.com/YujiaoYang-work/UoE。
部署大型语言模型(LLMs)成本高昂。然而,训练后的权重量化技术能够通过压缩模型尺寸以适应有限内存,并节省带宽以加速推理,从而有效解决这一问题。鉴于并非所有权重维度同等重要,此类方法通常依赖于敏感度指标,该指标反映了权重元素对损失函数的逐点影响,并用于预处理原始权重以实现更优量化。本研究对敏感度指标的准确性进行了实证分析,发现现有的基于梯度和海森矩阵的指标存在显著偏差:它们低估了量化对损失函数的影响,偏差可达数个数量级,这主要归因于局部二阶近似(即泰勒公式中的梯度和海森项)的收敛半径过小。为解决此问题,我们提出了后量化积分(Post-quantization Integral, PQI),这是一种能够精细估计后验敏感度的精确指标。为进一步利用这一精确指标,我们提出了ReQuant框架,该框架简洁而强大,主要由两个“密集-稀疏”解耦组件构成:自适应异常值选择和逐步重要权重解耦。实验结果表明,ReQuant显著提升了现有训练后量化方法的性能,在Llama 3.2 1B模型上结合QTIP方法实现了2.66的困惑度提升。
推理时扩展技术对于近期模型如OpenAI o1和DeepSeek R1的成功至关重要。然而,许多用于训练模型以支持推理时扩展的技术要求任务答案可被验证,这限制了其在数学、编程和逻辑推理等领域的应用。我们借鉴了人类在广泛开放式探索中如何做出初次尝试、向他人寻求详细反馈并基于此类反馈进行改进的方式。为此,我们收集数据并训练专门的反馈与编辑模型,这些模型能够针对开放式通用任务执行推理时扩展。在我们的设置中,一个模型生成初始响应,第二个模型提供反馈,随后第三个模型利用这些反馈来编辑响应。我们展示了通过增加初始响应草稿、有效反馈和编辑响应的数量,可以提升在Arena Hard基准上的表现,该基准对Chatbot Arena Elo有很强的预测性。当优化扩展时,基于Llama 3系列70B模型的设置能在2025年3月5日达到Arena Hard上的92.7分最新技术水平,超越了OpenAI o1-preview-2024-09-12的90.4分和DeepSeek R1的92.3分。
大型语言模型(LLMs)在机器翻译领域取得了显著成就,展现了跨多种语言的卓越性能。然而,翻译腔——以过度直译和不自然的翻译为特征——仍然是基于LLM的翻译系统中一个持续存在的挑战。尽管LLMs在大量自然话语语料库上进行了预训练,但在监督微调(SFT)过程中引入的偏差,导致其仍会出现翻译腔错误,并生成意料之外的不自然翻译。在本研究中,我们系统评估了LLM生成翻译中翻译腔的普遍性,并探究了其在监督训练中的根源。我们提出了缓解这些偏差的方法,包括润色黄金参考译文和过滤不自然的训练实例。实证评估表明,这些方法显著减少了翻译腔,同时提升了翻译的自然度,这一结果得到了人工评估和自动指标的验证。我们的发现强调了训练过程中进行调整的必要性,以优化LLM的翻译输出,为更流畅且符合目标语言习惯的翻译铺平了道路。我们已在https://github.com/yafuly/LLM_Translationese上发布了相关数据和代码。
高效解决贝叶斯逆问题仍面临重大挑战,这源于后验分布的复杂性以及传统采样方法的高计算成本。给定一系列观测数据和前向模型,我们的目标是恢复参数在实验观测数据条件下的分布。我们证明,通过将条件流匹配(CFM)与基于Transformer的架构相结合,能够高效地从这类分布中进行采样,且适应于不同数量的观测条件。
尽管跨语言迁移对当代语言模型的多语言能力至关重要,但其具体机制尚未得到充分理解。本文探讨了单语语言模型在开始接受第二语言训练时会发生什么变化。具体而言,我们训练了小型双语模型,并控制了每种语言的数据量及语言接触的顺序。为了寻找共享多语言表征的证据,我们采用了结构启动这一研究人类语法表征的方法。首先,我们复现了先前的跨语言结构启动实验结果,并发现,在控制了训练数据量和语言接触后,不同语言对及方向间存在不对称效应。我们认为,这种不对称性可能为人类结构启动效应的假设提供了新的视角。此外,我们还发现,对于相似度较低的语言对,结构启动效应较弱,这凸显了跨语言迁移学习及共享表征在类型学多样语言中的潜在局限性。
软件项目的蓬勃发展离不开来自不同背景的个体参与和贡献。然而,有害语言和负面互动会阻碍贡献者的参与和留存,并疏远新加入者。主动的治理策略旨在通过处理偏离初衷的对话来预防毒性行为的发生。本研究旨在理解和预测GitHub上导致毒性的对话偏离现象。 为支持这项研究,我们精心构建了一个新颖的数据集,包含202个来自GitHub的有害对话及其标注的偏离点,以及696个非有害对话作为基线。基于此数据集,我们识别了有害对话和偏离点的独特特征,包括第二人称代词、否定词等语言标记,以及“苦涩挫败”与“不耐烦”的语气,还有项目贡献者与外部参与者之间对话动态的模式。 利用这些实证观察,我们提出了一种主动治理方法,旨在自动检测并处理潜在有害对话,防止其升级。通过运用现代大语言模型(LLMs),我们开发了一种对话轨迹摘要技术,该技术能够捕捉讨论的演变过程并识别偏离的早期迹象。实验表明,针对GitHub对话摘要定制的LLM提示在预测对话偏离方面达到了69%的F1分数,相较于一系列基线方法有了显著提升。