每日精选AI研究论文及翻译
大型语言模型(LLMs)已彻底革新了自然语言处理(NLP)领域,然而开源的多语言LLMs仍较为稀缺,现有模型往往在语言覆盖范围上受限。这类模型通常优先考虑资源丰富的语言,而广泛使用但资源匮乏的语言则常被忽视。为解决这一不平衡现象,我们推出了Babel,一个开源的多语言LLM,它涵盖了按使用人数排名前25的语言,支持全球超过90%的人口,并包含了许多被其他开源多语言LLMs忽视的语言。不同于传统的持续预训练方法,Babel通过层扩展技术增加参数数量,从而提升了Babel的性能上限。我们推出了两个版本:Babel-9B,专为高效推理和微调设计;以及Babel-83B,为开源多语言LLMs树立了新标杆。在多语言任务上的广泛评估显示,相较于同等规模的开源LLMs,Babel展现了卓越的性能。此外,利用开源的有监督微调数据集,Babel取得了显著成效,其中Babel-9B-Chat在10B规模的LLMs中领先,而Babel-83B-Chat则为多语言任务设立了新标准,达到了与商业模型相当的水平。
大型语言模型(LLMs)的一个显著弱点是其倾向于生成非事实性陈述。当回应中混杂着事实与非事实内容时,人类在验证并据此做出准确决策时面临挑战。为应对此问题,我们提出了高亮思维链提示法(Highlighted Chain-of-Thought Prompting, HoT),这一技术旨在引导LLMs生成带有XML标签的回应,将事实与查询中提供的信息相锚定。具体而言,给定一个输入问题,LLMs首先会重新格式化问题,添加XML标签以突出关键事实,随后生成回应,并在引用输入事实的部分进行高亮显示。值得注意的是,在少量示例的设定下,HoT在从算术、阅读理解到逻辑推理等17项广泛任务上均优于传统的思维链提示法(CoT)。当要求人类验证LLM的回应时,高亮显示帮助时间有限的参与者更准确、高效地识别出LLM何时正确。然而,令人意外的是,当LLM出错时,HoT往往会让用户误以为答案是正确的。
大型语言模型在各类下游任务中展现出卓越性能,并已广泛应用于多种场景。为进一步提升其表现,采用人工标注的偏好数据进行训练,但这一方法受限于人类能力的上限。为此,自奖励方法被提出,即让语言模型通过自我奖励生成训练数据。然而,现有的自奖励范式在数学推理场景中效果欠佳,甚至可能导致性能下降。本研究提出了一种基于过程的自奖励流程,该流程在自奖励范式中引入了长程思维推理、分步式LLM作为评判者以及分步偏好优化。通过迭代的基于过程的自奖励,我们的新范式成功提升了大型语言模型在多个数学推理基准测试上的表现,展现了自奖励方法在实现可能超越人类能力的语言模型推理方面的巨大潜力。
我们推出KodCode,这是一个合成数据集,旨在解决为训练大型语言模型进行编程而获取高质量、可验证训练数据这一长期挑战,覆盖多种难度和领域。现有的代码相关资源通常无法同时确保覆盖广度(如从简单编码任务到高级算法问题)和可验证的正确性(如单元测试)。相比之下,KodCode包含经过系统自验证过程验证的问题-解答-测试三元组。我们的流程首先合成广泛的编程问题,然后生成解答和测试用例,并为难题分配额外尝试。最后,通过将问题重写为多种格式,并基于测试的拒绝采样程序从推理模型(DeepSeek R1)生成响应,完成训练后数据合成。这一流程产出了一个大规模、稳健且多样化的编程数据集。KodCode适用于监督微调,其配对的单元测试也为强化学习调优提供了巨大潜力。在编程基准测试(HumanEval(+)、MBPP(+)、BigCodeBench和LiveCodeBench)上的微调实验表明,经KodCode微调的模型实现了最先进的性能,超越了如Qwen2.5-Coder-32B-Instruct和DeepSeek-R1-Distill-Llama-70B等模型。
我们推出GEN3C,一款具备精确相机控制与时间维度三维一致性的生成式视频模型。现有视频模型虽能生成逼真视频,却较少利用三维信息,导致诸如物体突然出现或消失等不一致现象。即便实现了相机控制,也往往不够精确,因为相机参数仅作为神经网络的输入,网络需自行推断视频如何依赖于相机。相比之下,GEN3C由三维缓存引导:通过预测种子图像或先前生成帧的逐像素深度获取点云数据。在生成后续帧时,GEN3C以用户提供的新相机轨迹对三维缓存进行二维渲染作为条件。关键在于,这意味着GEN3C既无需记忆先前生成的内容,也不必从相机姿态推断图像结构。相反,模型可集中其全部生成能力于先前未观察到的区域,并将场景状态推进至下一帧。我们的成果展示了比以往工作更精确的相机控制,以及在稀疏视角新视图合成上的领先表现,即便在驾驶场景和单目动态视频等挑战性设置下亦如此。最佳效果请观看视频。访问我们的网页了解更多!https://research.nvidia.com/labs/toronto-ai/GEN3C/
视觉嵌入模型在零样本任务(如图像检索和分类)中表现出色。然而,这些模型无法处理包含模糊性或需要用户指令的任务。此类任务需要多模态嵌入模型,该模型能够输出结合视觉和自然语言输入的嵌入表示。现有的基于CLIP的方法分别嵌入图像和文本,然后融合结果。我们发现这导致模态间交互较弱,且用户对表示的控制力不足。我们提出了ABC,一个开源的多模态嵌入模型,它利用视觉-语言模型骨干深度整合图像特征与自然语言指令。ABC在MSCOCO图像到文本检索任务中实现了同类最佳性能,并在大规模多模态嵌入基准测试的分类和视觉问答任务中表现最优。凭借高度统一的视觉-语言表示,ABC能够运用自然语言解决微妙且可能模糊的视觉检索问题。为评估这一能力,我们设计了CtrlBench基准测试,该测试要求将文本指令与图像内容交织以实现正确检索。ABC通过提供高质量的表示和灵活的自然语言控制,推动了多模态嵌入技术的发展。我们的模型和数据集可在项目页面获取。
将先进大型语言模型的指令跟随能力通过精选子集蒸馏至较小模型,已成为模型训练的主流方法。现有合成指令数据选择策略主要依赖单一维度信号(如奖励分数、模型困惑度),难以捕捉跨领域指令跟随的复杂性。因此,我们探索了更多样化的信号以全面捕捉指令-响应对特征,并提出了三项基础指标,这些指标利用多LLM智慧,基于(1)多样化的LLM响应和(2)奖励模型评估。在基础指标之上,我们提出了CrowdSelect,一个集成指标,采用基于聚类的方法以保持响应多样性。我们的全面实验表明,基础指标在MT-bench和Arena-Hard上持续提升了4个基础模型的性能。CrowdSelect高效整合所有指标,在完整微调和LoRA微调中均实现了最先进的性能,特别是在Llama-3.2-3b-instruct模型上,Arena-Hard提升了4.81%,MT-bench提升了11.1%。我们希望这些发现能为该领域的未来研究带来宝贵洞见。代码已发布于https://github.com/listentm/crowdselect。
视觉语言模型(VLMs)在视觉定位任务中展现了卓越的能力。然而,其在医疗领域,尤其是针对医学图像中的异常检测与定位的有效性,仍待深入探索。主要挑战在于医学术语的复杂性和抽象性,这使得直接将病理异常术语与其对应的视觉特征关联起来变得困难。在本研究中,我们提出了一种新颖的方法,通过利用分解的医学知识来增强VLM在医疗异常检测与定位中的表现。我们不再直接提示模型识别特定异常,而是专注于将医学概念分解为基本属性和常见视觉模式。这一策略促进了文本描述与视觉特征之间更强的对齐,从而提升了医学图像中异常的识别与定位能力。我们在0.23B的Florence-2基础模型上评估了该方法,结果表明,尽管仅使用了此类模型所需数据的1.5%进行训练,其在异常定位上的表现与显著更大的7B基于LLaVA的医疗VLMs相当。实验结果还证明了我们的方法在已知及先前未见异常上的有效性,表明其具备强大的泛化能力。
在边缘设备上部署大规模语言模型面临着固有的挑战,如高计算需求、能源消耗以及潜在的数据隐私风险。本文介绍了Shakti小型语言模型(SLMs)系列——Shakti-100M、Shakti-250M和Shakti-500M,这些模型直接针对上述限制进行了优化。通过结合高效架构、量化技术及负责任的AI原则,Shakti系列为智能手机、智能家电、物联网系统等提供了设备端智能支持。我们深入探讨了其设计理念、训练流程,以及在通用任务(如MMLU、Hellaswag)和特定领域(医疗、金融、法律)上的基准性能。研究结果表明,经过精心工程设计和微调的紧凑模型,在实际边缘AI场景中不仅能够满足,甚至常常超越预期表现。
扩散模型的部分成功源于其执行迭代优化的能力,即在生成过程中反复修正输出。然而,现代掩码离散扩散模型缺乏这一功能:一旦生成一个标记,即使它引入了错误,也无法再次更新。在此,我们通过引入重掩码扩散模型(ReMDM)采样器来解决这一局限,该方法可以原则性地应用于预训练的掩码扩散模型,并源自具有自定义重掩码逆向过程的离散扩散模型。尤为引人注目的是,ReMDM赋予了离散扩散模型一种推理时计算规模调整的能力。通过增加采样步骤,ReMDM生成的自然语言输出接近自回归模型的质量,而在计算预算有限时,ReMDM能更好地保持质量。ReMDM还提升了掩码扩散模型在离散化图像上的样本质量,在诸如分子设计等科学领域,ReMDM促进了扩散引导,并相对于经典掩码和均匀噪声扩散,推动了可控性的帕累托前沿。我们在项目页面提供了代码及博客文章:https://remdm.github.io。
富含文本的图知识库(TG-KBs)在通过提供文本与结构知识来回答查询方面变得日益重要。然而,现有的检索方法往往孤立地获取这两种知识,未考虑它们之间的相互增强作用,甚至有些混合方法在邻近聚合后完全绕过了结构检索。为填补这一空白,我们提出了一种结构-文本混合检索方法(MoR),通过规划-推理-组织框架来检索这两种知识。在规划阶段,MoR生成文本规划图,勾勒出回答查询的逻辑路径。依据规划图,在推理阶段,MoR交织结构遍历与文本匹配,从TG-KBs中获取候选答案。在组织阶段,MoR进一步根据候选答案的结构轨迹进行重排序。大量实验证明了MoR在协调结构与文本检索方面的优越性,揭示了不同查询逻辑下检索性能的差异,以及整合结构轨迹对候选答案重排序的益处。我们的代码已发布于https://github.com/Yoega/MoR。
词级质量评估(QE)用于检测机器翻译中的错误片段,从而指导并促进人工后期编辑。尽管词级QE系统的准确性已得到广泛评估,但其可用性以及对人工后期编辑的速度、质量和编辑选择的下游影响仍研究不足。我们的QE4PE研究在涉及42位专业后期编辑、跨越两种翻译方向的真实场景中,探讨了词级QE对机器翻译(MT)后期编辑的影响。我们比较了四种错误片段高亮模式,包括监督式和基于不确定性的词级QE方法,用于识别最先进神经MT模型输出中的潜在错误。通过行为日志估算后期编辑的工作量和生产力,而质量提升则通过词级和句段级的人工标注进行评估。研究发现,领域、语言及编辑速度是决定高亮效果的关键因素,人工与自动化QE高亮之间存在的细微差异,凸显了专业工作流程中准确性与实用性之间的差距。
对话助手通常需要一种问题重写算法,该算法利用过往交互的子集来为用户的问题或请求提供更准确、更有意义的回答。然而,具体的重写策略往往取决于对话助手所支持的用例和应用场景任务,以及其他限制条件。本文中,我们系统性地探讨了两种不同的方法,即重写与融合,应用于两种本质不同的生成任务:包括一个文本到文本的生成任务,以及一个多模态生成任务,后者以文本为输入并生成可视化图表或数据表来回答用户问题。我们的研究结果表明,选择重写还是融合方法高度依赖于具体的应用场景和生成任务。特别是,我们发现对于基于对话的问答助手,查询重写方法表现最佳;而对于根据用户与助手的对话生成可视化图表和数据表的数据分析助手,融合方法效果更优。值得注意的是,我们针对数据分析助手的用例探索了两个数据集,分别对应短对话和长对话,发现查询融合方法始终表现更佳,而在基于文本的对话问答场景中,查询重写方法则最为有效。
工具学习旨在通过多样化的工具增强大型语言模型(LLMs),使其能够作为代理解决实际任务。由于使用工具的LLMs上下文长度有限,采用信息检索(IR)模型从大规模工具集中筛选有用工具成为关键的第一步。然而,IR模型在工具检索任务中的表现仍未被充分探索且不明确。大多数工具使用基准通过手动预标注每个任务的一小部分相关工具来简化这一步骤,这与现实场景相去甚远。本文提出了ToolRet,一个包含7.6k个多样化检索任务的异构工具检索基准,以及一个从现有数据集中收集的43k工具库。我们在ToolRet上对六类模型进行了基准测试。令人惊讶的是,即使在传统IR基准中表现优异的模型,在ToolRet上也表现不佳。这种低检索质量降低了工具使用LLMs的任务通过率。作为进一步措施,我们贡献了一个包含超过200k实例的大规模训练数据集,显著优化了IR模型的工具检索能力。
近期机器人操作领域的进展得益于跨多样环境收集的大规模数据集。传统上,这些数据集上的机器人操作策略训练以集中式方式进行,引发了关于可扩展性、适应性和数据隐私的担忧。尽管联邦学习实现了去中心化且保护隐私的训练方式,但其在机器人操作中的应用仍鲜有探索。我们推出了FLAME(跨操作环境的联邦学习),这是首个专为机器人操作中的联邦学习设计的基准。FLAME包含:(i) 一套超过160,000次专家演示的大规模数据集,涵盖多种操作任务,收集自广泛的模拟环境;(ii) 一个在联邦设置下进行机器人策略学习训练与评估的框架。我们在FLAME中评估了标准联邦学习算法,展示了它们在分布式策略学习中的潜力,并指出了关键挑战。该基准为可扩展、自适应且注重隐私的机器人学习奠定了基础。
近期生成式AI的进展推动了大型语言模型(LLMs)在软件工程中的广泛应用,解决了诸多长期存在的难题。然而,针对LLMs在软件漏洞检测(SVD)这一软件安全关键领域的能力,目前尚缺乏全面研究。现有研究主要集中于利用C/C++数据集评估LLMs,通常仅探讨提示工程、指令微调和序列分类微调这三种策略中的一两种,针对开源LLMs。因此,关于不同LLMs在多种编程语言中检测漏洞的有效性,存在显著的知识空白。为填补这一空白,我们开展了一项全面的实证研究,评估LLMs在SVD任务上的表现。我们构建了一个包含8,260个Python漏洞函数、7,505个Java漏洞函数及28,983个JavaScript漏洞函数的综合数据集。通过提示工程、指令微调和序列分类微调等多种方法,我们评估了五个开源LLMs,并将它们与五个经过微调的小型语言模型及两款开源静态应用安全测试工具进行对比。此外,我们探索了提升LLMs在SVD上性能的两条路径:a) 数据层面:使用下采样平衡数据集重新训练模型;b) 模型层面:研究结合多个LLMs预测结果的集成学习方法。我们的全面实验表明,SVD对LLMs而言仍是一项挑战。本研究深入探讨了LLMs在SVD中的作用,并为未来利用生成式AI提升软件安全实践提供了实用见解。
在自动化仓库等共享空间中,多智能体协调对于实现可靠的多机器人导航至关重要。在机器人流量密集的区域,局部协调方法可能无法找到无死锁的解决方案。在此类场景下,适宜由中央单元生成全局调度,决定机器人的通行顺序。然而,此类集中式协调方法的运行时间会随着问题规模的扩大而显著增加。本文提出利用图神经网络变分自编码器(GNN-VAE)来大规模解决多智能体协调问题,其速度远超集中式优化方法。我们将协调问题建模为图问题,并采用混合整数线性规划(MILP)求解器收集真实数据。训练过程中,我们的学习框架将图问题的高质量解决方案编码至潜在空间。在推理阶段,从采样的潜在变量中解码出解决方案样本,并选择成本最低的样本进行协调。最终,选取性能指标最高的可行方案进行部署。通过设计,我们的GNN-VAE框架始终返回符合所考虑协调问题约束的解决方案。数值结果表明,基于小规模问题训练的方法,即便面对250个机器人的大规模问题,也能获得高质量解决方案,且速度远超其他基线方法。项目页面:https://mengyuest.github.io/gnn-vae-coord
生成逼真的仿真对于自动驾驶和人机交互等自主系统应用至关重要。然而,当前的驾驶模拟器在生成可控、多样且符合规则的交通参与者行为方面仍面临挑战:基于规则的方法无法产生多样化的行为且需要精细调参,而基于学习的方法虽能从数据中模仿策略,却未明确设计为遵循规则。此外,现实世界的数据集本质上是“单一结果”的,这使得学习方法难以生成多样化的行为。本文中,我们利用信号时序逻辑(STL)和扩散模型来学习可控、多样且规则感知的策略。我们首先在真实数据上校准STL,然后通过轨迹优化生成多样化的合成数据,最后在增强的数据集上学习修正后的扩散策略。我们在NuScenes数据集上进行了测试,与其他基线方法相比,我们的方法能够生成最多样化且符合规则的轨迹,运行时间仅为次优方法的1/17。在闭环测试中,我们的方法达到了最高的多样性、规则满足率以及最低的碰撞率。我们的方法能够根据不同的STL参数在测试中生成具有不同特征的轨迹。在人机相遇场景的案例研究中,我们的方法能够生成多样化且接近理想轨迹的结果。标注工具、增强数据集及代码可在https://github.com/mengyuest/pSTL-diffusion-policy获取。
本文介绍了CognitiveDrone,一种专为需要高级认知能力的复杂无人机(UAV)任务设计的新型视觉-语言-动作(VLA)模型。该模型基于包含超过8,000条模拟飞行轨迹的数据集进行训练,涵盖三大关键类别——人类识别、符号理解与推理,能够根据第一人称视觉输入和文本指令生成实时的四维动作命令。为进一步提升在复杂场景中的表现,我们提出了CognitiveDrone-R1,它集成了一个额外的视觉-语言模型(VLM)推理模块,在高频控制前简化任务指令。通过使用我们开源的基准测试CognitiveDroneBench进行实验评估,结果显示,尽管以竞速为导向的模型(RaceVLA)总体成功率为31.3%,基础版CognitiveDrone模型达到59.6%,而CognitiveDrone-R1则实现了77.2%的成功率。这些结果表明,在关键认知任务上实现了高达30%的性能提升,凸显了将高级推理能力融入无人机控制系统的有效性。我们的贡献包括开发了用于无人机控制的最先进VLA模型,并引入了首个专门用于评估无人机操作中认知任务的基准测试。完整资源库可在cognitivedrone.github.io获取。
在瑞士,法律翻译具有独特的重要性,这源于该国四种官方语言及对多语种法律文件的要求。然而,这一过程传统上依赖于既需精通法律又擅长翻译的专业人士,导致效率瓶颈,影响了司法公正的有效实现。为应对这一挑战,我们推出了SwiLTra-Bench,这是一个包含超过18万条对齐的瑞士法律翻译对的多语言基准数据集,涵盖所有瑞士官方语言及英语的法律条文、摘要和新闻稿,旨在评估基于大语言模型(LLM)的翻译系统。我们的系统评估显示,前沿模型在所有文档类型上均展现出卓越的翻译性能,而专门化翻译系统虽在法律条文上表现突出,但在摘要翻译上则稍显逊色。通过严格测试与人类专家验证,我们证实,尽管对开源SLM进行微调能显著提升其翻译质量,它们仍落后于如Claude-3.5-Sonnet等最佳零样本提示的前沿模型。此外,我们还介绍了SwiLTra-Judge,一个与人类专家评估最为契合的专门化LLM评价系统。
自动驾驶车辆(AVs)已步入商业化阶段,但其在交互与意图表达方面的能力局限,仍使其在与人类驾驶车辆(HVs)的互动中面临挑战。近期,大型语言模型(LLMs)的进展实现了双向人机沟通,然而推理速度缓慢与实时决策需求之间的矛盾,对实际部署构成了难题。针对这些问题,本文提出了一种并行执行者-推理者框架,旨在跨多种场景实现明确的AV-HV双向交互。首先,通过在训练过程中促进LLM驱动的推理者与异构模拟HVs之间的交互,建立了一个交互记忆数据库,即执行者。随后,通过引入记忆分区模块和双层记忆检索模块,显著增强了执行者处理异构HVs的能力。消融研究及与其他决策方法的对比表明,所提出的执行者-推理者框架在安全性和效率上均有显著提升。最后,结合从推理者推理得出的外部人机界面(eHMI)信息与从执行者检索到的可行行动方案,在多场景实地交互中验证了该执行者-推理者框架的有效性。我们的代码已发布于https://github.com/FanGShiYuu/Actor-Reasoner。