每日精选AI研究论文及翻译
我们提出了DuPO,一种基于双重学习的偏好优化框架,它通过广义对偶性生成无需标注的反馈。DuPO解决了两个关键限制:一是“带可验证奖励的强化学习”(RLVR)对昂贵标签的依赖及其仅适用于可验证任务的局限性;二是传统双重学习仅限于严格对偶任务对(如翻译与回译)的约束。具体而言,DuPO将主任务的输入分解为已知与未知部分,随后构建其双重任务,利用主任务输出及已知信息重建未知部分(例如,通过逆向数学解恢复隐藏变量),从而拓宽了其应用于非可逆任务的范围。这种重建的质量作为自监督奖励,用于优化主任务,与大型语言模型(LLMs)通过单一模型实例化双重任务的能力相辅相成。实验表明,DuPO在多样化任务上取得了显著提升:在756个翻译方向上平均提升了2.13个COMET分数,在三个数学推理挑战基准上平均提高了6.4个百分点,作为推理时重排序器(以计算换取准确性)提升了9.3个百分点。这些成果确立了DuPO作为一个可扩展、通用且无需标注的LLM优化范式的地位。
未来预测对于大型语言模型(LLM)代理而言是一项复杂的任务,需要高水平的分析思维、信息收集、上下文理解以及在不确定性下的决策能力。代理不仅需要收集并解读大量动态信息,还需整合多样化的数据源,权衡不确定性,并根据新兴趋势调整预测,正如人类专家在政治、经济及金融领域所做的那样。尽管其重要性不言而喻,但目前尚缺乏一个大规模基准来评估代理在未来预测方面的表现,这主要归因于处理实时更新和获取及时准确答案的挑战。为此,我们推出了FutureX,这是一个专为执行未来预测任务的LLM代理设计的动态实时评估基准。FutureX是当前最大且最多样化的未来预测实时基准,支持每日实时更新,并通过自动化流程收集问题与答案,有效避免了数据污染。我们对25个LLM/代理模型进行了评估,包括具备推理、搜索能力以及整合外部工具(如开源的深度研究代理与闭源的深度研究模型)的模型。这一全面评估旨在衡量代理在动态环境中的适应推理能力及表现。此外,我们还深入分析了代理在面向未来任务中的失败模式与性能瓶颈,包括对虚假网页的脆弱性及时间有效性。我们的目标是建立一个动态、无污染的评估标准,推动LLM代理在复杂推理与预测思维方面达到专业人类分析师的水平。
大型语言模型(LLMs)在金融应用领域展现出潜力,但由于现有基准测试的不足,其在这一高风险领域的适用性仍大多未经证实。现有基准测试仅依赖分数层面的评估,通过单一分数总结模型表现,这掩盖了对模型真正掌握内容及其具体局限性的细致理解。此外,这些基准测试依赖的数据集仅覆盖了金融概念的狭窄子集,而忽视了现实世界应用中的其他关键要素。为填补这些空白,我们推出了FinCDM,这是首个专为金融LLMs设计的认知诊断评估框架,它能够在知识技能层面评估LLMs,基于模型在技能标注任务上的响应模式,识别其具备或缺乏的金融技能与知识,而非依赖单一的汇总分数。我们构建了CPA-QKA,这是首个基于注册会计师(CPA)考试、具有认知洞察力的金融评估数据集,全面覆盖了现实世界的会计与金融技能。该数据集由领域专家严格标注,他们编写、验证并标注问题,确保了高标注者间一致性和细粒度的知识标签。我们对30个专有、开源及领域特定的LLMs进行了广泛实验,结果表明,FinCDM揭示了隐藏的知识缺口,识别了如税务和监管推理等传统基准测试忽视的未充分测试领域,并发现了模型间的行为聚类。FinCDM通过支持可解释、技能感知的诊断,为金融LLM评估引入了新范式,促进了更可信、目标明确的模型开发,所有数据集和评估脚本将公开发布,以支持进一步研究。
将三维物体重建为可编辑程序对于逆向工程和形状编辑等应用至关重要。然而,现有方法通常依赖于有限的领域特定语言(DSLs)和小规模数据集,限制了其建模复杂几何和结构的能力。为解决这些挑战,我们提出了MeshCoder,一个新颖的框架,能够从点云重建复杂三维物体为可编辑的Blender Python脚本。我们开发了一套全面的、表达能力强的Blender Python API,能够合成精细的几何结构。利用这些API,我们构建了一个大规模的对象-代码配对数据集,其中每个对象的代码被分解为不同的语义部分。随后,我们训练了一个多模态大语言模型(LLM),将三维点云转换为可执行的Blender Python脚本。我们的方法不仅在形状到代码的重建任务中表现出色,还通过便捷的代码修改实现了直观的几何和拓扑编辑。此外,基于代码的表示增强了LLM在三维形状理解任务中的推理能力。这些贡献共同确立了MeshCoder作为程序化三维形状重建与理解的强大而灵活的解决方案。
我们推出Tinker,一个多功能的高保真3D编辑框架,能够在无需针对每个场景进行微调的情况下,实现单次及少量样本的编辑。与以往技术不同,那些方法需要大量的场景优化来确保多视角一致性或生成数十个一致的编辑输入视图,而Tinker仅需一至两张图片即可提供稳健、多视角一致的编辑效果。这一能力源于对预训练扩散模型的重新利用,从而解锁了其潜在的3D感知能力。为推进该领域研究,我们构建了首个大规模多视角编辑数据集及数据处理流程,涵盖多样场景与风格。基于此数据集,我们开发了无需逐场景训练即可生成多视角一致编辑视图的框架,该框架包含两个创新组件:(1) 参考多视角编辑器:实现精确、参考驱动的编辑,确保所有视角下的连贯性。(2) 任意视角到视频合成器:利用视频扩散模型的空间-时间先验,即使从稀疏输入也能完成高质量的场景补全和新视角生成。通过大量实验,Tinker显著降低了通用3D内容创作的门槛,在编辑、新视角合成及渲染增强任务上达到了业界领先水平。我们相信,Tinker标志着迈向真正可扩展、零样本3D编辑的关键一步。项目网页:https://aim-uofa.github.io/Tinker
模型上下文协议(Model Context Protocol,MCP)已成为连接大型语言模型与外部数据源及工具的革命性标准,迅速在各大AI供应商和开发平台中普及。然而,现有基准测试过于简化,未能捕捉实际应用中的挑战,如长程推理和庞大且陌生的工具空间。为填补这一关键空白,我们推出了MCP-Universe,这是首个专门设计用于通过与现实世界MCP服务器交互来评估LLM在真实且复杂任务中表现的全面基准。我们的基准涵盖6个核心领域,涉及11个不同的MCP服务器:位置导航、仓库管理、金融分析、3D设计、浏览器自动化及网络搜索。为确保评估的严谨性,我们实施了基于执行的评估器,包括用于代理格式合规性的格式评估器、用于时间不变内容匹配的静态评估器,以及为时间敏感任务自动检索实时真实数据的动态评估器。通过对领先LLM的广泛评估,我们发现即使是GPT-5(43.72%)、Grok-4(33.33%)和Claude-4.0-Sonnet(29.44%)等SOTA模型也表现出显著的性能局限。此外,我们的基准对LLM代理提出了显著的长上下文挑战,因为输入令牌数量随交互步骤迅速增加。同时,它还引入了未知工具挑战,因为LLM代理通常不熟悉MCP服务器的精确使用。值得注意的是,企业级代理如Cursor无法超越标准ReAct框架的表现。除评估外,我们还开源了带有UI支持的可扩展评估框架,使研究人员和从业者能够无缝集成新代理和MCP服务器,同时促进快速发展的MCP生态系统中的创新。
我们推出Nemotron-Nano-9B-v2,这是一款混合Mamba-Transformer语言模型,旨在提升推理任务的处理吞吐量,同时在与同等规模模型的对比中达到顶尖的准确率。Nemotron-Nano-9B-v2基于Nemotron-H架构,该架构将传统Transformer中的大部分自注意力层替换为Mamba-2层,从而在生成推理所需的长思维轨迹时显著提升推理速度。我们首先采用FP8训练方案,在20万亿个token上预训练了一个120亿参数的模型(Nemotron-Nano-12B-v2-Base)。在对Nemotron-Nano-12B-v2-Base进行对齐后,我们运用Minitron策略对模型进行压缩与蒸馏,目标是在单个NVIDIA A10G GPU(22GiB内存,bfloat16精度)上实现高达128k token的推理。与现有同等规模模型(如Qwen3-8B)相比,Nemotron-Nano-9B-v2在推理基准测试中展现出相当或更优的准确率,同时在8k输入和16k输出token的推理场景下,推理吞吐量最高提升至6倍。我们已在Hugging Face上发布Nemotron-Nano-9B-v2、Nemotron-Nano12B-v2-Base及Nemotron-Nano-9B-v2-Base的检查点,以及大部分预训练和训练后数据集。
人工智能(AI)正在重塑科学发现,从专业化的计算工具演变为自主的研究伙伴。我们将“代理科学”定位为更广泛的“AI for Science”范式中的一个关键阶段,在此阶段,AI系统从部分辅助迈向全面的科学代理能力。借助大型语言模型(LLMs)、多模态系统及集成研究平台,代理型AI展现出在假设生成、实验设计、执行、分析及迭代优化等方面的能力——这些曾被视为人类独有的行为。本综述以领域为导向,回顾了生命科学、化学、材料科学及物理学中的自主科学发现。我们通过一个综合框架,将先前分散的三种视角——过程导向、自主导向及机制导向——统一起来,该框架连接了基础能力、核心过程及领域特定的实现。基于此框架,我们(i)追溯了“AI for Science”的演进历程,(ii)识别了支撑科学代理能力的五大核心能力,(iii)将发现过程建模为一个动态的四阶段工作流,(iv)评述了上述领域中的应用实例,以及(v)综合了关键挑战与未来机遇。本研究确立了自主科学发现的领域导向综合,并将“代理科学”定位为推进AI驱动研究的一个结构化范式。
近期,扩散大语言模型(dLLMs)的进展为自然语言生成任务提供了一种有前景的替代方案,相较于自回归(AR)LLMs,它充分利用了全注意力机制和基于去噪的解码策略。然而,由于这些模型庞大的参数量和高资源需求,其在边缘设备上的部署仍面临挑战。尽管训练后量化(PTQ)已成为压缩AR LLMs的广泛采用技术,但其在dLLMs上的适用性仍鲜有探索。本研究首次系统性地探讨了基于扩散的语言模型的量化问题。我们首先识别了激活异常值的存在,这些异常值以异常大的激活值主导了动态范围,对低位量化构成了主要挑战,因为它们使得在保留大多数数值精度方面变得困难。更重要的是,我们实施了最先进的PTQ方法,并在多种任务类型和模型变体上进行了全面评估。我们的分析围绕四个关键维度展开:位宽、量化方法、任务类别和模型类型。通过这种多视角评估,我们为不同配置下dLLMs的量化行为提供了实用见解。希望我们的发现能为未来高效部署dLLMs的研究奠定基础。所有代码和实验设置将公开发布,以支持社区研究。
我们推出RynnEC,一款专为具身认知设计的视频多模态大语言模型。基于通用视觉-语言基础模型构建,RynnEC整合了区域编码器与掩码解码器,实现了灵活的区域级视频交互。尽管架构紧凑,RynnEC在物体属性理解、物体分割及空间推理方面均达到了业界领先水平。从概念上讲,它为具身代理的“大脑”提供了一种以区域为中心的视频范式,赋予其对物理世界更细致的感知能力,并支持更精准的交互。针对标注3D数据集稀缺的问题,我们提出了一种基于第一人称视频的流程,用于生成具身认知数据。此外,我们引入了RynnEC-Bench,一个以区域为核心的基准测试,用于评估具身认知能力。我们期待RynnEC能推动具身代理通用认知核心的发展,并促进跨多种具身任务的泛化能力。代码、模型检查点及基准测试均可访问:https://github.com/alibaba-damo-academy/RynnEC。
人工智能系统正通过加速特定研究任务——从蛋白质结构预测到材料设计——来变革科学发现,然而这些系统仍局限于狭窄的领域,需要大量的人工监督。科学文献的指数级增长和日益加深的领域专业化限制了研究人员跨学科综合知识并发展统一理论的能力,这促使人们探索更为通用的科学人工智能系统。本文展示了一种领域无关的、具有自主性的AI系统,它能够独立完成科学工作流程——从假设生成、数据收集到论文撰写。该系统自主设计并执行了三项关于视觉工作记忆、心理旋转和意象生动性的心理学研究,开展了一项涉及288名参与者的在线数据收集,通过超过8小时的连续编码开发了分析流程,并完成了论文的撰写。结果表明,AI科学发现流程能够进行具有理论推理和方法论严谨性的非平凡研究,其水平可与经验丰富的研究者相媲美,尽管在概念细微差别和理论解释方面仍存在局限。这是迈向能够通过现实世界实验验证假设的具身AI的一步,它通过自主探索科学领域中人类认知和资源限制可能忽视的区域,加速了科学发现。这一进展引发了关于科学理解本质及科学成果归属的重要问题。
自注意力机制的二次方复杂度限制了其在大规模非结构化网格上的适用性和可扩展性。我们提出了快速低秩注意力路由引擎(FLARE),这是一种线性复杂度的自注意力机制,通过固定长度的潜在序列来路由注意力。每个注意力头通过可学习的查询标记将输入序列投影到长度为M(M远小于N)的固定潜在序列上,从而实现N个标记之间的全局通信。通过将注意力路由至瓶颈序列,FLARE学习到了一种低秩形式的注意力,其计算成本仅为O(NM)。FLARE不仅能够扩展到前所未有的问题规模,还在多种基准测试中超越了最先进的神经PDE替代模型,展现出卓越的准确性。我们还发布了一个新的增材制造数据集,以促进进一步研究。我们的代码可在https://github.com/vpuri3/FLARE.py获取。
监督微调(SFT)与强化学习(RL)是两大主流后训练范式,旨在提升大语言模型(LLMs)的能力并调整其行为。现有整合SFT与RL的方法常面临破坏已有模型模式及对专家数据过拟合的风险。为此,我们提出了一种新颖的研究视角,通过离策略与在策略的对比,统一审视SFT与RL。我们介绍了CHORD框架,即通过动态权重实现可控的在策略与离策略强化学习协调,该框架将SFT重新定义为在策略RL过程中的一个动态加权辅助目标,而非独立阶段。基于对离策略专家数据在整体与细粒度层面影响的分析,CHORD引入了双重控制机制。具体而言,框架首先采用全局系数整体引导从离策略模仿向在策略探索的过渡,随后应用基于词元的加权函数,允许从专家词元进行细粒度学习,既保留了在策略探索,又减轻了离策略数据的干扰。我们在广泛使用的基准上进行了大量实验,实证表明CHORD实现了稳定高效的学习过程。通过有效协调离策略专家数据与在策略探索,CHORD相较于基线方法展现出显著提升。我们已在https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord发布实现代码,以期激发更多研究。
视觉语言模型(VLMs)在英语多模态任务中展现出卓越能力,但其在低资源语言且真正多模态教育内容上的表现仍鲜有研究。本工作中,我们测试了VLMs在越南教育评估中的表现,探究主要基于英语数据训练的VLMs能否处理现实世界的跨语言多模态推理。通过提出ViExam这一包含2,548道多模态问题的基准,我们首次全面评估了VLMs在越南多模态考试中的能力。研究发现,最先进的VLMs平均准确率仅为57.74%,而开源模型在包括数学、物理、化学、生物、地理、驾驶测试和智商测试在内的7个学术领域平均准确率为27.70%。大多数VLMs表现不及普通人类考生(66.54%),仅有思维型VLM o3(74.07%)超越人类平均水平,但仍远低于人类最佳表现(99.60%)。采用英语指令同时保留越南语内容的跨语言提示策略未能提升性能,反而使SOTA VLMs的准确率下降了1个百分点。人机协作可部分提升VLMs表现,提高5个百分点。代码与数据可在https://vi-exam.github.io获取。
大型语言模型(LLMs)在推理任务上取得了显著进展,尤其是通过思维链(CoT)推理等方法。然而,在需要精确计算的任务中,它们往往表现欠佳。工具集成推理(TIR)作为一种解决方案应运而生,它将外部工具融入推理过程。尽管如此,TIR在提升LLM推理能力方面的泛化效果仍不明确。此外,TIR是否改善了模型的推理行为并助力模型思考,也有待深入研究。我们引入了ReasonZoo,一个涵盖九种不同推理类别的综合基准,以评估TIR在各个领域的有效性。同时,我们提出了两个新颖的指标——性能感知成本(PAC)和性能-成本曲线下面积(AUC-PCC),用以评估推理效率。我们的实证评估表明,启用TIR的模型在数学和非数学任务中均持续优于未启用TIR的模型。此外,TIR提升了推理效率,这体现在改进的PAC和AUC-PCC上,表明减少了过度思考并实现了更为流畅的推理。这些发现强调了TIR的跨领域优势及其在推动LLM处理复杂推理任务能力方面的潜力。
尺度变化是计算机视觉领域的一项基础性挑战。同类物体可能具有不同尺寸,且其感知大小还会受到与相机距离的影响。这些变化是物体局部的,即在同一图像中,不同物体的尺寸可能以不同方式变化。为有效处理尺度变化,我们提出了一种深度均衡规范化器(DEC),以提升模型的局部尺度等变性。DEC可轻松融入现有网络架构,并能适配预训练模型。值得注意的是,在竞争激烈的ImageNet基准测试中,DEC在四种流行的预训练深度网络(如ViT、DeiT、Swin和BEiT)上均提升了模型性能及局部尺度一致性。我们的代码已公开于https://github.com/ashiq24/local-scale-equivariance。
本文提出了一种在完全同态加密(FHE)框架下计算莱文斯坦(编辑)距离的新方法,特别针对第三代方案如TFHE。编辑距离计算在金融和基因组学等领域的应用中至关重要,例如DNA序列比对。我们引入了一种名为Leuvenshtein的优化算法,显著降低了编辑距离计算成本。该算法特别减少了每个计算单元所需的可编程自举(PBS)操作次数,从传统Wagner-Fisher算法所需的约94次操作降至仅1次。此外,我们提出了一种高效的字符相等性检查方法,将ASCII字符比较减少到仅需2次PBS操作。最后,我们探讨了在其中一个输入字符串未加密时,通过预处理进一步优化性能的潜力。我们的Leuvenshtein算法相比现有最佳TFHE实现提速高达278倍,比优化后的Wagner-Fisher算法快39倍。此外,当服务器端存在一个未加密输入,可进行离线预处理时,还能额外获得3倍的加速效果。
近期,在推理增强型大语言模型(LLMs)领域取得的进展,展现了其在复杂推理任务中的卓越能力。然而,关于这些模型如何运用不同人类推理技能的机制,尤其是涉及跨语言与文化的日常知识的多语言常识推理,仍缺乏深入探究。为填补这一空白,我们提出了一个多语言且可扩展的技能型常识推理基准测试——mSCoRe。 该基准测试整合了三大核心组件,旨在系统评估LLM的推理能力,包括:(1)一套新颖的推理技能分类体系,支持对模型推理过程进行细粒度分析;(2)专为常识推理评估设计的稳健数据合成流程;(3)一个复杂度调节框架,使任务难度能随LLM能力的未来提升而动态调整。通过对八种不同规模与训练方法的顶尖LLM进行广泛实验,我们发现mSCoRe对当前模型而言仍极具挑战性,尤其是在更高复杂度层级上。我们的研究结果揭示了此类推理增强模型在面对微妙的多语言通用与文化常识时的局限性。此外,我们还对模型的推理过程进行了详尽分析,为提升多语言常识推理能力指明了未来研究方向。
多模态推荐系统致力于利用物品的丰富模态信息(如图像和文本描述)来提升推荐性能。当前方法凭借图神经网络强大的结构建模能力已取得显著成功。然而,这些方法在实际场景中常受限于数据稀疏问题。尽管对比学习和同构图(即同质图)被用来应对数据稀疏挑战,现有方法仍存在两大局限:1)简单的多模态特征对比未能生成有效表示,导致模态共享特征中的噪声以及模态独有特征中有价值信息的丢失;2)对用户兴趣与物品共现之间同构关系探索的不足,使得用户-物品交互的挖掘不够全面。 针对上述局限,我们提出了一种新颖的框架——REfining multi-modAl contRastive learning and hoMography relations(REARM)。具体而言,我们通过引入元网络和正交约束策略来完善多模态对比学习,这些策略能够滤除模态共享特征中的噪声,并保留模态独有特征中与推荐相关的信息。为了有效挖掘同质关系,我们将新构建的用户兴趣图和物品共现图与现有的用户共现图及物品语义图相结合,用于图学习。在三个真实世界数据集上的广泛实验表明,REARM相较于多种最先进的基线方法具有显著优势。我们的可视化结果进一步展示了REARM在区分模态共享与模态独有特征方面的改进。代码可在此处获取:https://github.com/MrShouxingMa/REARM。