每日精选AI研究论文及翻译
在本技术报告中,我们介绍了Ring-linear模型系列,具体包括Ring-mini-linear-2.0和Ring-flash-linear-2.0。其中,Ring-mini-linear-2.0拥有160亿参数和9.57亿激活量,而Ring-flash-linear-2.0则包含1040亿参数和61亿激活量。这两款模型均采用了混合架构,有效融合了线性注意力与softmax注意力机制,在长上下文推理场景中显著降低了I/O与计算开销。相较于320亿参数的密集模型,该系列将推理成本降至十分之一;与初代Ring系列相比,成本也减少了超过50%。此外,通过对混合架构中不同注意力机制比例的深入探索,我们确定了当前最优的模型结构。同时,借助自主研发的高性能FP8算子库——linghe,整体训练效率提升了50%。得益于训练与推理引擎算子间的高度一致性,模型在强化学习阶段能够实现长期、稳定且高效的优化,在多个具有挑战性的复杂推理基准测试中持续保持SOTA性能。
强化学习(RL)近期已成为对齐和增强大型语言模型(LLMs)的核心范式。然而,在离策略设置中应用RL——即利用过去策略产生的陈旧数据进行训练——虽能提升样本效率,却仍面临挑战:策略熵急剧下降,优化过程常不稳定甚至崩溃。通过理论与实证分析,我们揭示了两大关键发现:(i) 优化中的不平衡现象,即负优势样本主导了策略梯度,抑制了有益行为并可能导致梯度爆炸;(ii) 提出的熵剪裁规则,揭示了PPO类目标中固定剪裁机制系统性地阻碍了熵增更新,从而驱使策略过度开发而牺牲探索。基于这些洞察,我们提出了自适应剪裁的平衡策略优化(BAPO),这是一种简单而有效的方法,通过动态调整剪裁边界来自适应地重新平衡正负贡献,保持熵值,并稳定RL优化。在多样化的离策略场景中——包括样本回放和部分轨迹——BAPO实现了快速、稳定且数据高效的训练。在AIME 2024和AIME 2025基准测试中,我们的7B BAPO模型超越了SkyWork-OR1-7B等开源对手,而32B BAPO模型不仅在同规模模型中达到顶尖水平,还超越了o3-mini和Gemini-2.5-Flash-Thinking等领先的专有系统。
长上下文推理对于大型语言模型至关重要。尽管强化学习(RL)通过激发思维链中的“顿悟”时刻增强了短上下文推理能力,但长上下文推理所需的高级思维模式仍未被充分探索,且高难度的RL数据稀缺。本文提出LoongRL,一种数据驱动的RL方法,用于高级长上下文推理。LoongRL的核心是KeyChain,这是一种合成方法,通过插入UUID链将短多跳问答转化为高难度的长上下文任务,将真实问题隐藏于大量干扰文档中。解决这些任务要求模型逐步追踪正确链条,识别真实问题,检索相关事实并基于其进行推理以给出正确答案。在KeyChain数据上的RL训练催生了一种计划-检索-推理-复查的推理模式,该模式在训练长度之外展现出良好的泛化能力。在16K长度上训练的模型能有效解决128K任务,而无需承担全长度RL展开的高昂成本。在Qwen2.5-7B和14B上,LoongRL显著提升了长上下文多跳问答的准确率,分别实现了+23.5%和+21.1%的绝对增益。由此得到的LoongRL-14B模型得分达到74.2,与更大规模的前沿模型如o3-mini(74.5)和DeepSeek-R1(74.9)相媲美。此外,它还提升了长上下文检索能力,通过了所有128K“大海捞针”压力测试,并保留了短上下文推理能力。
训练通用型机器人的视觉-语言-动作(VLA)模型通常需要大规模的真实世界机器人数据,这些数据的收集既昂贵又耗时。物理数据收集的低效性严重限制了当前VLA系统的可扩展性和泛化能力。为解决这一挑战,我们推出了GigaBrain-0,一种基于世界模型生成数据(如视频生成、真实到真实转换、人类动作迁移、视角转换、仿真到真实转换数据)的新型VLA基础模型。通过利用世界模型大规模生成多样化数据,GigaBrain-0显著减少了对真实机器人数据的依赖,同时提升了跨任务泛化能力。我们的方法进一步通过RGBD输入建模和具身链式思维(CoT)监督增强了策略的鲁棒性,使模型能够在任务执行过程中推理空间几何、物体状态及长期依赖关系。这带来了在灵巧操作、长期规划和移动操控任务上现实世界性能的显著提升。大量实验表明,GigaBrain-0在外观(如纹理、颜色)、物体摆放和相机视角变化方面展现出卓越的泛化能力。此外,我们还推出了GigaBrain-0-Small,一个优化后的轻量级版本,专为在NVIDIA Jetson AGX Orin等设备上高效运行而设计。
Transformer组件中的非线性激活函数和归一化操作本质上是非单射的,这意味着不同的输入可能映射到相同的输出,从而阻碍从模型的表示中精确恢复输入。本文中,我们对此观点提出挑战。首先,我们从数学上证明了将离散输入序列映射为连续表示序列的Transformer语言模型是单射的,因此是无损的,这一性质在初始化时确立并在训练过程中得以保持。其次,通过对六个最先进的语言模型进行数十亿次碰撞测试,我们实证验证了这一结果,且未观察到任何碰撞。第三,我们将单射性付诸实践:提出了SipIt算法,这是首个能够从隐藏激活中可证明且高效地重构出精确输入文本的算法,确立了线性时间保证,并在实践中展示了精确的可逆性。总体而言,我们的工作确立了单射性作为语言模型的一个基本且可利用的属性,对透明度、可解释性及安全部署具有直接意义。
训练计算机使用代理需要大量的图形用户界面(GUI)交互数据,但大规模手动标注操作轨迹成本过高。我们提出了VideoAgentTrek,一个可扩展的流程,能够自动从公开可用的屏幕录制视频中挖掘训练数据,无需人工标注。我们的方法解决了一个关键挑战:原始视频包含隐式演示但缺乏显式操作标签。为此,我们开发了Video2Action,一个逆向动力学模块(IDM),包含两个组件:(1) 视频定位模型,用于检测并精确定位带有时间边界和上下文的GUI操作;(2) 操作内容识别器,能够高保真地提取如点击坐标和输入文本等结构化参数。应用于39,000个YouTube教程视频,我们的流程自动生成了152万次交互步骤。我们通过持续预训练和后续的监督微调来利用这些数据。在OSWorld-Verified上,我们的方法将任务成功率从9.3%(仅SFT基线)提升至15.8%,相对提高了70%。在AgentNetBench上,步骤准确率从64.1%提升至69.3%。我们的结果表明,被动获取的互联网视频可以转化为高质量的计算器使用代理监督数据,为昂贵的人工标注提供了可扩展的替代方案。
移动终端智能体(MPAs)因其在多样化场景中的广泛应用潜力,已成为一个极具前景的研究方向。尽管多模态大语言模型(MLLMs)构成了MPAs的基础,但它们在同时处理多项移动终端任务时的效能仍显不足。虽然多任务监督微调(SFT)被广泛用于多任务学习,现有方法在确定最佳训练数据组合以实现峰值性能方面面临挑战。为解决这一难题,我们提出了DaMo(数据混合优化器)——一种创新解决方案,它采用可训练网络预测最优数据混合比例,通过预估任何给定数据集比例下的下游任务表现来实现。为支持全面评估,我们推出了PhoneAgentBench,这是首个专门评估MLLMs在多模态移动终端任务上表现的基准,包含1235个问答对,覆盖多样化的现实工业移动应用场景。在小规模试点实验中,DaMo展现出强大的预测能力(R^2=0.81),能有效推断出最优数据混合配置。我们的结果显示,与替代方法相比,DaMo在PhoneAgentBench上实现了3.38%的性能提升。此外,在包括BFCL-v3、MME-Reasoning、MME-Perception和OCRBench在内的多个成熟基准上的广泛实验表明,DaMo具有卓越的泛化能力,在平均得分上优于其他方法2.57%。当仅用于优化BFCL-v3任务中的MLLM时,DaMo使指标提升了12.47%,显著优于其他方法。值得注意的是,DaMo保持了良好的可扩展性,在应用于其他模型架构时仍能保持其有效性。代码和数据集已公开于https://github.com/OPPO-Mente-Lab/DaMo.git。
视觉-语言模型(VLMs)已取得显著进展,但其庞大的规模往往使其在资源受限的环境中难以实用。本文提出了一种新颖且高效的训练算法——统一强化与模仿学习(RIL),旨在构建强大而轻量级的VLMs。RIL独特地结合了强化学习与对抗性模仿学习的优势,使得小型学生VLMs不仅能模仿大型教师模型的复杂文本生成,还能通过强化信号系统性地提升其生成能力。我们模仿框架的核心是一个基于大语言模型(LLM)的判别器,它能够精准区分学生与教师的输出,并辅以多个大型教师VLMs的指导,确保学习的多样性。这一融合强化与模仿的统一学习策略,使学生模型实现了显著的性能提升,使其与领先的闭源VLMs相媲美。在多种视觉-语言基准上的广泛实验表明,RIL显著缩小了与最先进的开源及闭源VLMs之间的性能差距,并在多个实例中超越了它们。
近期,多模态模型的进展展示了卓越的文本引导图像编辑能力,诸如GPT-4o和Nano-Banana等系统设立了新的标杆。然而,研究界的进步仍受限于缺乏大规模、高质量且公开可访问的真实图像构建的数据集。我们推出了Pico-Banana-400K,一个包含40万张图像的综合性指令引导图像编辑数据集。该数据集通过利用Nano-Banana从OpenImages集合中的真实照片生成多样化的编辑对来构建。Pico-Banana-400K与以往合成数据集的不同之处在于我们对质量和多样性的系统性把控。我们采用细粒度的图像编辑分类法,确保全面覆盖编辑类型,同时通过基于MLLM的质量评分和精心筛选,保持内容的精确保留和指令的忠实性。除了单次编辑,Pico-Banana-400K还支持复杂编辑场景的研究。数据集包含三个专门子集:(1) 一个包含7.2万示例的多轮编辑集合,用于研究连续修改中的序列编辑、推理与规划;(2) 一个包含5.6万示例的偏好子集,用于对齐研究和奖励模型训练;(3) 配对的长期与短期编辑指令,用于开发指令重写和摘要能力。通过提供这一大规模、高质量且任务丰富的资源,Pico-Banana-400K为训练和评估下一代文本引导图像编辑模型奠定了坚实的基础。
生成专业的财务报告是一项劳动密集且对智力要求极高的过程,当前的人工智能系统难以完全实现自动化。为应对这一挑战,我们引入了FinSight(金融洞察),一种创新的多智能体框架,用于制作高质量、多模态的财务报告。FinSight的核心是带有可变记忆的代码智能体(CAVM)架构,该架构将外部数据、设计工具及智能体统一到一个可编程的变量空间中,通过可执行代码实现灵活的数据收集、分析及报告生成。为确保专业级的可视化效果,我们提出了一种迭代视觉增强机制,逐步将原始视觉输出精炼为精美的财务图表。此外,一个两阶段的写作框架将简洁的分析链片段扩展为连贯、引用意识强且多模态的报告,保证了分析的深度与结构的一致性。在各类公司及行业层面的任务实验中,FinSight显著超越了所有基线系统,包括领先的深度研究系统,在事实准确性、分析深度及呈现质量方面均表现出色,展示了生成接近人类专家水平报告的清晰路径。
随着大型语言模型(LLMs)在人机交互中的应用日益增多,其在人际情境中的社会推理能力变得至关重要。我们引入了SCRIPTS,一个包含1000个对话的英语和韩语数据集,数据源自电影剧本。该任务旨在评估模型通过对话推断说话者之间人际关系(如朋友、姐妹、恋人)的社会推理能力。每个对话均由来自韩国和美国的母语(或同等水平)韩语和英语使用者标注了概率关系标签(极有可能、较不可能、不太可能)。在对九种模型进行评估时,当前专有LLMs在英语数据集上的准确率约为75-80%,而在韩语数据集上的表现则降至58-69%。更为显著的是,模型在10-25%的响应中选择了“不太可能”的关系。此外,我们发现,对于一般推理有效的思维模型和链式思维提示,在社会推理方面提供的帮助有限,有时甚至放大了社会偏见。我们的研究揭示了当前LLMs在社会推理能力上的显著局限,强调了开发具备社会意识的语言模型的必要性。
自动驾驶世界模型需在状态、动作和奖励三个核心维度上高效运作。然而,现有模型通常局限于有限的状态模态、短视频序列、不精确的动作控制以及缺乏奖励意识。本文中,我们提出了OmniNWM,一种全知全景导航世界模型,它在一个统一框架内解决了所有三个维度的问题。在状态方面,OmniNWM联合生成了包含RGB、语义、度量深度和3D占用的全景视频。通过灵活的强制策略,实现了高质量的长时域自回归生成。对于动作,我们引入了一种归一化的全景Plucker射线图表示法,将输入轨迹编码为像素级信号,从而实现对全景视频生成的高度精确且可泛化的控制。关于奖励,我们超越了依赖外部基于图像的模型学习奖励函数的方法,转而利用生成的3D占用直接定义基于规则的密集奖励,以确保驾驶合规性和安全性。大量实验表明,OmniNWM在视频生成、控制精度和长时域稳定性方面均达到了业界领先水平,同时通过基于占用的奖励提供了可靠的闭环评估框架。项目页面详见https://github.com/Arlo0o/OmniNWM。
掩码扩散语言模型(DLMs)近期作为传统自回归模型(ARMs)的有力替代方案崭露头角。DLMs采用具备双向注意力机制的Transformer编码器,实现了并行化的token生成,同时保持了优异的性能。尽管其效率与效果已得到广泛研究,但支配DLMs的内部机制仍多未探明。本研究对DLM的注意力模式进行了实证分析,特别聚焦于先前在多种基于Transformer的架构中观察到的注意力下沉现象。我们的发现表明,DLMs同样展现出注意力下沉,但具有独特特征。首先,与ARMs不同,DLMs中的下沉位置在生成过程中倾向于动态移动,表现出一种活跃的变化特性。其次,尽管ARMs对移除注意力下沉极为敏感,DLMs却展现出较强的鲁棒性:遮蔽下沉仅导致性能轻微下降。这些结果为理解基于扩散的语言模型的内在运作机制提供了新视角,并凸显了其在注意力分配与利用方面与自回归模型存在根本性差异。
我们推出了Chart2Code,这是一个用于评估大型多模态模型(LMMs)图表理解与代码生成能力的新基准。Chart2Code从用户驱动视角出发,精心设计,涵盖了多样化的真实场景,并逐步提升任务难度。它包含三个层级:第一层级(图表复现)要求根据参考图像和用户查询复现图表;第二层级(图表编辑)涉及复杂修改,如更换图表类型或添加元素;第三层级(长表转图表生成)则要求模型依据用户指令,将信息密集的长表格准确转化为图表。据我们所知,这是首个既反映实际chart2code应用场景,又系统化提升任务复杂度的层次化基准。Chart2Code总计包含2,023个任务,覆盖22种图表类型,并配有多层次评估指标,既检验代码正确性,也评估渲染图表的视觉保真度。我们对25个最先进的(SoTA)LMMs进行了基准测试,包括专有模型及最新开源模型如GPT-5、Qwen2.5-VL、InternVL3/3.5、MiMo-VL和Seed-1.6-VL。实验结果显示,即便是SoTA模型GPT-5,在编辑任务上的代码评估平均得分仅为0.57,图表质量评估平均得分仅为0.22,凸显了Chart2Code的挑战性。我们预期这一基准将推动多模态推理的进步,促进开发更强大、通用的LMMs。我们的代码与数据已发布于Chart2Code平台。
大型多模态模型在其预训练权重中编码了丰富的事实知识。然而,这些知识保持静态且有限,无法跟上现实世界的发展步伐,这阻碍了持续的知识获取。因此,有效的知识注入变得至关重要,涉及两个目标:知识适应(注入新知识)和知识保留(保存旧知识)。现有方法往往难以学习新知识,并遭受灾难性遗忘的困扰。为解决这一问题,我们提出了KORE,一种协同的知识导向增强与约束方法,用于向大型多模态模型注入新知识的同时保留旧知识。与一般的文本或图像数据增强不同,KORE自动将单个知识项转化为结构化和全面的知识,确保模型准确学习新知识,实现精准适应。同时,KORE将先前的知识存储于LMM线性层激活的协方差矩阵中,并通过将原始权重投影到矩阵的零空间来初始化适配器,定义了一个微调方向,最大限度地减少对先前知识的干扰,实现强大的保留能力。在包括LLaVA-v1.5-7B、LLaVA-v1.5-13B和Qwen2.5-VL-7B在内的多种LMM上的广泛实验表明,KORE在注入新知识方面表现出色,并有效缓解了灾难性遗忘。
我们隆重推出olmOCR 2,这是我们家族中最新一代强大的OCR系统,专为将数字化印刷文档(如PDF)转换为整洁、自然排序的纯文本而设计。olmOCR 2的核心动力源自olmOCR-2-7B-1025,这是一个专门训练的7B视觉语言模型(VLM),采用带有可验证奖励的强化学习(RLVR)方法进行训练,其中我们的奖励机制基于一系列多样化的二元单元测试。为了规模化单元测试的创建,我们开发了一套流程,用于生成具有多样性和挑战性布局的合成文档,这些文档包含已知的HTML源代码作为真实标签,并从中提取测试用例。我们证明,基于这些测试用例的强化学习训练,在olmOCR-Bench——我们的英语OCR基准测试中,实现了业界领先的性能,特别是在数学公式转换、表格解析和多栏布局处理方面,相较于前代版本取得了显著提升。我们以宽松的开源许可发布了模型、数据及代码。
自模型上下文协议(MCP)引入以来,大型语言模型(LLMs)可用工具的数量显著增加。这些针对特定任务的工具集为通用工具(如网页浏览器)提供了替代方案,同时比图形用户界面(GUI)更易于开发和维护。然而,当前通用智能体主要依赖网页浏览器与环境交互。在此,我们介绍TheMCPCompany,这是一个用于评估调用工具智能体在与各种现实世界服务交互任务中的基准。我们利用这些服务的REST API创建了MCP服务器,其中包含超过18,000种工具。我们还为每项任务提供了手动标注的真实工具。在实验中,我们使用真实工具展示了调用工具智能体在假设完美工具检索情况下,既能提升性能又能降低成本的潜力。接着,我们通过工具检索探索智能体性能,以研究基于工具智能体在现实世界中的实用性。虽然所有具备工具检索的模型表现与基于浏览器的智能体相当或更优,但较小模型无法通过检索充分利用可用工具。另一方面,GPT-5在工具检索下的表现非常接近其使用真实工具时的表现。总体而言,我们的工作表明,最先进的推理模型在简单环境中能有效发现工具,但在复杂的企业环境中导航时却面临严重困难。TheMCPCompany揭示,导航数以万计的工具并以非平凡方式组合它们来解决复杂问题,对当前模型而言仍是一项挑战,需要更好的推理和检索模型。
多模态大语言模型(MLLMs)通过关注与文本查询相关的视觉标记,展现出强大的视频理解能力。为了在无需训练的情况下直接适应定位任务,我们将视频推理分割视为视频问答任务,并通过展开机制提取注意力图。然而,原始注意力图存在噪声且与目标区域对齐不佳。我们提出了分解注意力融合(DecAF),通过两种机制优化这些图:(1)对比性目标-背景融合和(2)互补性视频帧融合。该方法抑制了无关激活并增强了目标聚焦线索,使得注意力图能够直接转换为粗略分割掩码。此外,我们引入了注意力引导的SAM2提示机制,用于获取细粒度掩码。与现有方法联合训练MLLMs和SAM不同,我们的方法完全无需重新训练。DecAF在无需训练的方法中表现优异,并在参考和推理视频对象分割基准上达到了与基于训练方法相当的性能。代码将发布于https://github.com/HYUNJS/DecAF。
随着硬件、软件及大规模语言模型技术的进步,人类与操作系统之间的交互已从命令行界面演进至快速兴起的AI代理交互。构建一个能够执行用户指令并忠实遵循用户意愿的操作系统(OS)代理正逐渐成为现实。在本技术报告中,我们介绍了ColorAgent,一个旨在与环境进行长期、稳健交互,同时实现个性化与主动用户交互的OS代理。为了支持与环境的长期交互,我们通过分步强化学习和自我进化训练增强了模型能力,并开发了一个定制的多代理框架,确保其通用性、一致性和鲁棒性。在用户交互方面,我们探索了个性化用户意图识别与主动互动,将OS代理定位为不仅是自动化工具,更是一个温暖、协作的伙伴。我们在AndroidWorld和AndroidLab基准测试上对ColorAgent进行了评估,分别取得了77.2%和50.7%的成功率,创下了新的技术标杆。然而,我们指出当前基准测试尚不足以全面评估OS代理,并建议未来工作中进一步探索评估范式、代理协作及安全等领域。我们的代码已发布于https://github.com/MadeAgents/mobile-use。
大型多模态模型(LMMs)通过跨模态预训练编码了丰富的知识,但其静态表征难以准确理解时效性知识。现有基准测试受限于静态设计,无法充分评估LMMs对时效性知识的理解能力。为填补这一空白,我们提出了MINED,一个综合性的基准测试,从认知、意识、可信度、理解、推理和鲁棒性六个关键维度及十一项挑战性任务来评估时间感知能力。MINED由两位专业标注者基于维基百科构建,包含跨越六种知识类型的2,104个时效性知识样本。对15个广泛使用的LMMs在MINED上的评估显示,Gemini-2.5-Pro以63.07的平均CEM得分位居榜首,而大多数开源LMMs仍缺乏时间理解能力。同时,LMMs在组织知识上表现最佳,而在体育知识上表现最弱。针对这些挑战,我们探索了通过知识编辑方法更新LMMs中时效性知识的可行性,并观察到在单一编辑场景下,LMMs能够有效利用知识编辑方法更新知识。
优化建模在各行业中支持关键决策,但其自动化仍面临挑战:需将非正式语言映射为精确的数学表达与可执行的求解器代码。以往的大型语言模型(LLM)方法要么依赖脆弱的提示机制,要么需进行成本高昂且泛化能力有限的再训练。我们提出AlphaOPT,一种自我提升的经验库,使LLM能够从有限的演示(甚至仅凭答案,无需黄金标准程序)及求解器反馈中学习——无需标注的推理轨迹或参数更新。AlphaOPT采用持续的双阶段循环运作:(i) 库学习阶段,反思失败尝试,提取经求解器验证的结构化洞见,形成{分类、条件、解释、示例};(ii) 库进化阶段,诊断检索偏差,优化存储洞见的适用条件,提升跨任务迁移能力。此设计具备三大优势:(1) 无需精心策划的推理过程,即可高效地从有限演示中学习;(2) 通过更新库而非模型权重,实现持续扩展,避免昂贵的再训练;(3) 使知识显式且可解释,便于人类审查与干预。实验表明,AlphaOPT随数据量增加稳步提升(从100到300个训练项,准确率由65%升至72%),在仅基于答案训练的情况下,于分布外数据集OptiBench上超越最强基线7.7%。代码与数据公开于:https://github.com/Minw913/AlphaOPT。
现有的参数高效微调(PEFT)方法主要分为两类:基于添加的方法和选择性原位适应方法。前者,如LoRA,通过引入额外模块使模型适应下游任务,具有较高的内存效率。然而,其表征能力往往受限,不太适合细粒度适应。相比之下,后者直接微调原模型参数中精心挑选的子集,允许更精确有效的适应,但代价是显著增加的内存消耗。为了调和这一权衡,我们提出了NeuroAda,一种新颖的PEFT方法,它能够在保持高内存效率的同时实现细粒度模型微调。我们的方法首先如选择性适应那样识别重要参数(即网络内的连接),然后为这些选定的参数引入旁路连接。在微调过程中,仅更新旁路连接,而保持原模型参数冻结。在涵盖自然语言生成与理解的23+任务上的实证结果表明,NeuroAda以仅leq 0.02%的可训练参数实现了最先进的性能,同时将CUDA内存使用量减少了高达60%。我们在此发布代码:https://github.com/FightingFighting/NeuroAda.git。
多模态大语言模型(MLLMs)正迅速发展,但其推理能力往往落后于强大的纯文本模型。现有弥合这一差距的方法依赖于大规模多模态推理数据的监督微调或强化学习,这两种方式均需耗费大量资源。模型融合作为一种有前景的替代方案,通过在推理增强型大语言模型与多模态变体之间进行参数插值来实现。然而,我们的分析表明,简单的融合并非总是“免费的午餐”:其效果因模型系列而异,部分模型(如LLaVA、Idefics)受益,而其他模型(如Qwen)则出现性能下降。为解决这一问题,我们提出了面向微调的方向性推理注入(DRIFT)MLLMs,这是一种轻量级方法,在梯度空间中传递推理知识,同时不破坏多模态对齐。DRIFT预先计算推理先验作为推理与多模态变体间的参数空间差异,随后在微调过程中利用该先验引导梯度。此方法既保持了标准监督微调流程的简洁性,又实现了高效的推理知识迁移。在包括MathVista和MathVerse在内的多模态推理基准上的广泛实验表明,DRIFT在推理性能上持续优于简单融合与监督微调,同时以极低的成本匹配甚至超越了训练密集型方法。
高质量预训练数据对于大型语言模型至关重要,其中质量体现为事实可靠性与语义价值,而多样性则确保了广泛的覆盖面和分布异质性。现有方法通常依赖于单一或多维度的评分筛选。然而,直接选取高分数据往往导致性能下降,需从更广范围内采样以恢复效果。数据集评分与下游基准结果间的非单调性揭示了一个根本性偏差:基于评分的方法压缩了相关维度,使得高分数据看似优质却系统性忽视了多样性。我们主张,确保多样性需将相关指标分解为正交特征维度,从中可直接选取高分数据。为此,我们提出了正交多样性感知选择(ODiS)算法,在数据筛选中兼顾质量与多样性。首先,ODiS从多个维度评估数据,涵盖语言质量、知识质量及理解难度。随后,通过主成分分析(PCA)去相关化多维评分,得到正交评估维度。针对每一维度,训练一个基于Roberta的评分器,将数据回归至PCA投影得分,实现大规模语料库的可扩展推理。最后,ODiS通过在每个正交维度内选取高分数据构建训练集,从而确保质量与多样性。实证结果显示,ODiS筛选的数据维度间重叠率低于2%,验证了维度的正交性。更重要的是,使用ODiS筛选数据训练的模型在下游基准测试中显著超越其他基线,凸显了正交、多样性感知数据选择对大型语言模型的必要性。
房间脉冲响应(RIR)是去混响、鲁棒语音识别、声源定位及房间声学估计的核心资源。我们推出了RIR-Mega,这是一个大规模的模拟RIR集合,采用紧凑、机器友好的元数据模式描述,并配备了简便的工具以支持验证与复用。该数据集随附Hugging Face Datasets加载器、元数据校验与校验和脚本,以及一个参考回归基线,该基线能够从波形中预测RT60等目标。在36,000个训练样本和4,000个验证样本的分割上,基于轻量级时频特征的小型随机森林模型实现了接近0.013秒的平均绝对误差和约0.022秒的均方根误差。我们在Hugging Face上托管了包含1,000个线性阵列RIR和3,000个圆形阵列RIR的子集,便于流式传输与快速测试,并将完整的50,000个RIR存档保存于Zenodo。数据集与代码均公开,以支持可重复性研究。
评估大型语言模型(LLMs)的进展常受限于验证响应的挑战,导致评估多局限于数学、编程及简短问答等任务。然而,众多实际应用场景要求LLMs能够处理专业文档、整合信息并针对用户查询生成详尽报告。为此,我们推出了ProfBench:一套包含7000余项由具备物理学博士、化学博士、金融MBA及咨询MBA专业背景的人类专家评估的响应-标准对。我们构建了稳健且经济高效的LLM评判体系,通过减轻自我提升偏差并将评估成本降低2至3个数量级,使ProfBench的评估标准公平且易于广大社区使用。研究发现,即便对于最先进的LLMs,如GPT-5-high,其在ProfBench上的整体表现也仅为65.9%,显示出显著挑战。此外,我们观察到专有模型与开源权重模型之间存在显著性能差异,并深入探讨了扩展思维在处理复杂专业领域任务中的作用。数据访问:https://huggingface.co/datasets/nvidia/ProfBench,代码获取:https://github.com/NVlabs/ProfBench。
人类通过将文字视为视觉对象来阅读,包括其形状、布局和模式,随后将其与意义关联,这使得我们能够有效处理拼写错误、变形字体及多种文字体系。然而,现代大型语言模型(LLMs)依赖于子词分词技术,将文本从固定词汇表中分割成片段。尽管这对高资源语言行之有效,但此方法对低资源语言过度分割,产生冗长且语言学上无意义的序列,并增加了计算负担。在本研究中,我们挑战这一根深蒂固的范式,转向以视觉为中心的替代方案。我们的方法——SeeTok,将文本渲染为图像(视觉文本),并利用预训练的多模态LLMs进行解读,复用从大规模多模态训练中学到的强大OCR和文本-视觉对齐能力。在三种不同的语言任务中,SeeTok与子词分词器表现相当或更优,同时所需token数量减少了4.43倍,计算量(FLOPs)降低了70.5%,并在跨语言泛化、对排版噪声的鲁棒性及语言层级结构上取得额外优势。SeeTok标志着从符号化分词向类人视觉阅读的转变,迈向了更自然、更受认知启发的语言模型。
文本到图像(T2I)模型发展迅速,但仍易受语义泄露的影响,即不同实体间语义相关特征的无意传递。现有的缓解策略多基于优化或依赖外部输入。我们提出了DeLeaker,一种轻量级、无需优化的推理时方法,通过直接干预模型的注意力图来减轻泄露。在整个扩散过程中,DeLeaker动态重加权注意力图,以抑制过度的跨实体交互,同时强化每个实体的身份特征。为支持系统评估,我们引入了SLIM(图像中的语义泄露),这是首个专注于语义泄露的数据集,包含1,130个经过人工验证的样本,涵盖多种场景,并配备了一个新颖的自动评估框架。实验表明,DeLeaker在所有基线方法中表现一致优异,即使这些方法获得了外部信息,也能在不牺牲保真度或质量的情况下有效缓解泄露。这些结果凸显了注意力控制的价值,为开发语义更精确的T2I模型铺平了道路。
尽管成员推断攻击(MIAs)与机器生成文本检测针对不同目标——识别训练样本和合成文本,但它们的常用方法往往基于语言模型的概率分布,利用相似的信号。尽管存在这一共同的方法论基础,这两项任务却一直独立研究,可能导致结论忽视了另一任务中开发的更强方法和宝贵见解。在本研究中,我们从理论和实证角度探讨了MIAs与机器文本检测之间的可迁移性,即一项任务开发的方法在另一任务上的表现如何。作为理论贡献,我们证明了在这两项任务上达到渐近最高性能的度量标准是相同的。我们在此最优度量标准的框架下统一了大量现有文献,并假设一个方法近似该度量标准的准确度与其可迁移性直接相关。我们的大规模实证实验,涵盖了7种最先进的MIA方法和5种最先进的机器文本检测器,跨越13个领域和10种生成器,显示出跨任务性能中非常强的秩相关性(rho > 0.6)。特别值得注意的是,最初为机器文本检测设计的Binoculars,在MIA基准测试中也达到了最先进的性能,展示了可迁移性的实际影响。我们的发现强调了两大研究社区之间需要更强的跨任务意识与合作。为了促进跨任务发展和公平评估,我们引入了MINT,一个统一的评估套件,用于MIAs和机器生成文本检测,其中实现了来自两项任务的15种最新方法。
Transformer模型往往难以学习到可泛化的算法,而是依赖于脆弱的启发式方法。以图连通性为测试平台,我们从理论和实证两方面解释了这一现象。我们考察了一种简化的Transformer架构——解耦Transformer,并证明了L层模型能够精确解决直径不超过3^L的图问题,其实现的算法等价于计算邻接矩阵的幂次。通过分析训练动态,我们发现学习策略的关键在于大多数训练实例是否处于模型的能力范围内。对于能力范围内的图(直径≤3^L),模型能够学习到正确的算法解决方案;而对于超出能力范围的图,模型则倾向于学习基于节点度的简单启发式方法。最后,我们通过实验证实,将训练数据限制在模型能力范围内,无论是标准Transformer还是解耦Transformer,都能学习到精确的算法,而非基于节点度的启发式方法。