每日精选AI研究论文及翻译
层次推理模型(HRM)是一种创新方法,它采用两个小型神经网络以不同频率进行递归。这种受生物学启发的技术在解决数独、迷宫和ARC-AGI等复杂谜题任务时,表现优于大型语言模型(LLMs),而训练仅需小型模型(2700万参数)和少量数据(约1000个示例)。HRM在利用小型网络解决难题方面展现出巨大潜力,但其机制尚未被充分理解,可能并非最优。我们提出微型递归模型(TRM),这是一种更为简洁的递归推理方法,仅使用一个仅含2层的微型网络,却实现了比HRM显著更高的泛化能力。TRM仅需700万参数,在ARC-AGI-1上获得45%的测试准确率,在ARC-AGI-2上达到8%,超越了大多数LLMs(如Deepseek R1、o3-mini、Gemini 2.5 Pro),而参数数量不足其0.01%。
基于结果的强化学习推动了大型语言模型(LLMs)的推理能力发展,但当前主流的工具增强方法训练的是一个单一、整体的策略,该策略在完整上下文中交替进行思考与工具调用;这种方法在处理长时程任务和多样化工具时扩展性差,且在新场景下泛化能力弱。代理系统通过将工作分解到专门模块中提供了一种有前景的替代方案,然而大多数系统仍保持无训练状态或依赖于与多轮交互实时动态脱节的离线训练。我们引入了AgentFlow,一个可训练的、实时运行的代理框架,它通过不断演进的记忆协调四个模块(规划器、执行器、验证器、生成器),并直接在多轮循环中优化其规划器。为了在实时环境中进行在线策略训练,我们提出了基于流的群体精炼策略优化(Flow-GRPO),它通过将多轮优化转化为一系列可处理的单轮策略更新,解决了长时程、稀疏奖励的信用分配问题。该方法将单一可验证的轨迹级结果广播至每一轮,使局部规划决策与全局成功对齐,并通过群体归一化优势稳定学习过程。在十个基准测试中,配备7B规模骨干的AgentFlow在搜索、代理、数学和科学任务上的平均准确率分别提升了14.9%、14.0%、14.5%和4.1%,甚至超越了如GPT-4o等更大的专有模型。进一步分析证实了实时优化的优势,显示出改进的规划能力、增强的工具调用可靠性,以及随模型规模和推理轮次增加的正向扩展性。
工具集成推理已成为实现智能应用的关键焦点。其中,深度研究代理因其在复杂、开放式信息检索任务中的卓越表现而备受关注。我们推出了Fathom-DeepResearch,这是一个由两个专用模型组成的智能系统。首先是Fathom-Search-4B,这是一个基于Qwen3-4B训练的深度搜索模型,专为通过实时网络搜索和定向网页查询进行基于证据的调查而优化。其训练结合了三大创新:(i) DUETQA,一个通过多智能体自博弈生成的5K样本数据集,强制严格的网络搜索依赖性和异质来源锚定;(ii) RAPO,作为GRPO的零开销扩展,通过课程剪枝、奖励感知优势缩放和每提示重放缓冲区,稳定了带有可验证奖励的多轮强化学习;(iii) 可引导的步骤级奖励,按认知行为和边际效用对每次工具调用进行分类,实现对搜索轨迹广度、深度和范围的显式控制。这些改进使得在必要时工具调用可可靠地扩展至20次以上。其次是Fathom-Synthesizer-4B,同样基于Qwen3-4B训练,它将多轮深度搜索轨迹转化为结构化的、引用密集的深度研究报告,实现全面综合。在深度搜索基准(SimpleQA、FRAMES、WebWalker、Seal0、MuSiQue)和DeepResearch-Bench上的评估显示,该系统在开放权重类别中达到了最先进的性能,同时展示了对包括HLE、AIME-25、GPQA-Diamond和MedQA在内的多样化推理任务的强大泛化能力。
过程奖励模型(PRMs)近期崭露头角,成为增强大规模推理模型(LRMs)推理能力的强大框架,尤其在测试时扩展(TTS)背景下表现突出。然而,其在监督LRMs进行表格推理领域的潜力尚未得到充分挖掘。通过细致的实证分析,我们发现现有的PRMs虽广泛用于监督纯文本推理步骤,但在处理子表检索和模式交互等表格特定操作时存在困难,导致关键性能瓶颈。为克服这一局限,我们提出了TaTToo,一个新颖的基于表格的PRM框架,它(i)明确地对表格推理步骤进行推理,并(ii)整合工具验证以提供精确的奖励监督。具体而言,我们首先设计了一个可扩展的数据构建流程,通过融合表格验证原理与基于工具的执行,构建了超过60,000条高质量步骤级标注。基于收集的数据,我们采用双阶段范式训练TaTToo:冷启动监督微调以捕捉工具使用推理模式,随后通过基于工具奖励塑造的强化学习,使模型与基于表格的验证对齐。我们对新设计的PRM带来的策略改进进行了全面评估。在涵盖数值推理、事实核查和数据分析的5个具有挑战性的表格推理基准测试中,TaTToo在推理阶段将下游策略LRMs提升了30.9%,仅以8B参数便超越了如Qwen-2.5-Math-PRM-72B等强大的PRM基线,并在多种TTS策略中展现出强大的泛化能力。
自回归(AR)大语言模型(LLMs)在广泛的自然语言任务中取得了显著性能,但其固有的顺序解码限制了推理效率。在本研究中,我们提出了Fast-dLLM v2,一种精心设计的块扩散语言模型(dLLM),它能够高效地将预训练的AR模型适配为并行文本生成的dLLM,仅需约10亿个标记的微调。与全注意力扩散LLM(如Dream,需5800亿标记)相比,这实现了500倍的训练数据缩减,同时保持了原模型的性能。我们的方法引入了一种新颖的训练方案,结合了块扩散机制与互补注意力掩码,使得在不牺牲AR训练目标的前提下,实现块级双向上下文建模。为了进一步加速解码,我们设计了一种分层缓存机制:块级缓存用于跨块存储历史上下文表示,子块缓存则支持在部分解码的块内高效并行生成。结合我们的并行解码管道,Fast-dLLM v2在不影响生成质量的情况下,相比标准AR解码实现了高达2.5倍的加速。跨多个基准的广泛实验表明,Fast-dLLM v2在准确性上匹配或超越了AR基线,同时在dLLM中提供了最先进的效率——标志着向快速准确LLM实际部署迈出了重要一步。代码和模型将公开发布。
扩散语言模型有望实现自回归编码器所缺乏的双向上下文和填充能力,但实际系统仍显笨重。我们推出了CoDA,这是一个在TPU上训练的1.7B参数扩散编码器,拥有完全开源的训练流程。CoDA结合了大规模扩散预训练与以代码为中心的中期训练及指令微调,实现了置信度引导的采样,使推理延迟保持竞争力。在Humaneval、MBPP和EvalPlus基准测试中,CoDA-1.7B-Instruct的表现与高达7B参数的扩散模型相当甚至更优。我们的发布内容包括模型检查点、评估框架及TPU训练流程,旨在加速基于轻量级扩散的编码助手研究。
扩散模型和基于流的非自回归(NAR)模型在大规模语言建模中展现出显著潜力,然而它们在自动语音识别(ASR)领域的应用仍待深入探索。我们提出了Drax,一种面向ASR的离散流匹配框架,支持高效的并行解码。为了更好地对齐训练与推理过程,我们构建了一种音频条件概率路径,引导模型沿着类似于可能中间推理错误的轨迹进行学习,而非直接从随机噪声到目标状态的转换。理论分析表明,泛化差距与训练和推理占用之间的差异相关,这些差异由累积速度误差控制,从而为我们的设计选择提供了理论依据。实证评估显示,该方法在识别准确率上可与最先进的语音模型相媲美,同时提供了更优的准确率-效率权衡,凸显了离散流匹配作为推进NAR ASR发展的一个富有前景的方向。
推理模型通过逐步解决问题来提升性能,将问题分解为子问题,并在生成答案前探索长链思维。然而,对每一步都应用扩展推理会引入大量冗余,因为子问题的难度和复杂性差异显著:少数关键步骤真正具有挑战性且对最终答案起决定性作用,而其他许多步骤仅涉及简单的修改或基础计算。因此,一个自然的想法是赋予推理模型自适应应对这种变化的能力,而非对所有步骤采用相同的详细程度。为此,我们提出了MixReasoning框架,该框架能在单一响应中动态调整推理深度。由此产生的思维链便混合了对困难步骤的详细推理与对简单步骤的简洁推断。在GSM8K、MATH-500和AIME上的实验表明,MixReasoning在保持准确性的同时,显著缩短了推理长度并大幅提升了效率。
推理能力对于大型语言模型(LLMs)解决复杂任务至关重要,然而实现可靠且可扩展的推理仍面临挑战。尽管链式思维(CoT)提示已成为主流方法,但现有方法常存在生成不可控、质量不足及推理路径多样性有限的问题。近期研究尝试通过将推理步骤与可执行代码相结合来增强CoT,然而这类方法通常局限于预定义的数学问题,限制了其可扩展性和泛化能力。在本研究中,我们提出了Caco(代码辅助链式思维),一个创新框架,通过代码驱动的增强自动化合成高质量、可验证且多样化的指令-Co T推理数据。与先前工作不同,Caco首先在统一代码格式下对基于代码的CoT生成器进行微调,利用现有的数学和编程解决方案,随后将数据生成扩展至大量多样化的推理轨迹。关键之处在于,我们引入了通过代码执行和基于规则的过滤进行自动验证,以确保逻辑正确性和结构多样性,接着将筛选后的输出逆向工程为自然语言指令和语言CoT,以丰富任务适应性。这一闭环过程实现了完全自动化、可扩展的推理数据合成,并保证了可执行性。在我们创建的Caco-1.3M数据集上的实验表明,经Caco训练的模型在数学推理基准测试中展现出强劲的竞争力,超越了现有强基线。进一步分析揭示,Caco的代码锚定验证和指令多样性有助于在未见任务上实现更优的泛化。我们的工作为构建无需人工干预、自我维持且可信赖的推理系统确立了一种范式。
大型语言模型(LLMs)在单轮文本到SQL任务中展现了卓越的性能,然而现实世界的数据库应用主要依赖于多轮交互来处理模糊查询、执行错误以及不断变化的用户需求。现有的多轮基准测试存在不足,它们将对话历史视为静态上下文或仅限于只读操作评估,未能反映生产级数据库助手所面临的挑战。为此,我们引入了BIRD-INTERACT基准,通过以下方式恢复真实感:(1)构建一个综合交互环境,将每个数据库与层次化知识库、元数据文件及函数驱动的用户模拟器相结合,使模型能在无需人工监督的情况下请求澄清、检索知识并从错误中恢复;(2)提供两种评估设置,包括预定义的对话协议(c-Interact)和开放式代理设置(a-Interact),在后者中模型自主决定何时查询用户模拟器或探索环境;(3)设计一套涵盖业务智能和操作用例全CRUD(增删改查)范围的挑战性任务集,并配备可执行的测试用例进行保护。每项任务均包含需要动态交互的模糊及后续子任务。该套件包含BIRD-INTERACT-FULL(600项任务,最多11,796次交互)用于全面性能评估,以及BIRD-INTERACT-LITE(300项任务,采用简化数据库)用于详细行为分析和快速方法开发。我们的实证结果凸显了BIRD-INTERACT的难度:GPT-5在c-Interact中仅完成8.67%的任务,在a-Interact中完成17.00%。通过记忆嫁接和交互测试时缩放分析,验证了有效交互对于复杂、动态文本到SQL任务的重要性。
视频条件下的4D形状生成旨在直接从输入视频中恢复随时间变化的3D几何结构和视角一致的外观。在本研究中,我们提出了一种原生的视频到4D形状生成框架,该框架能够端到端地从视频中合成单一的动态3D表示。我们的框架基于大规模预训练的3D模型,引入了三个关键组件:(i) 一种时间注意力机制,它在生成过程中考虑所有帧,同时产生时间索引的动态表示;(ii) 一种时间感知的点采样和4D潜在锚定方法,以促进时间上一致的几何和纹理;(iii) 跨帧的噪声共享,以增强时间稳定性。我们的方法无需逐帧优化,便能准确捕捉非刚性运动、体积变化乃至拓扑转变。在多样化的真实世界视频中,与基线方法相比,我们的方法提升了鲁棒性和感知保真度,并减少了失败模式。
近期的大型语言模型(LLM)后训练方法依赖于强化学习(RL)过程中的令牌级裁剪机制。然而,我们发现了这种基于结果监督的强化学习(OSRL)范式中的一个根本性缺陷:正优势令牌的重要性采样(IS)比率不匹配,导致正负令牌的权重分配失衡。这种不匹配抑制了低概率令牌的更新,同时过度放大了已经高概率的令牌。为解决这一问题,我们提出了非对称重要性采样策略优化(ASPO),采用了一种简单而有效的策略,即翻转正优势令牌的IS比率,使其更新方向与负令牌的学习动态保持一致。ASPO进一步引入了软双裁剪机制,以在保持梯度流动的同时稳定极端更新。在编码和数学推理基准上的全面实验表明,ASPO显著缓解了早熟收敛问题,提升了训练稳定性,并在基于GRPO的强基线基础上提高了最终性能。我们的分析为OSRL中令牌级权重的作用提供了新的见解,并强调了在LLM RL中纠正IS的至关重要性。ASPO的代码和模型可在https://github.com/wizard-III/Archer2.0获取。
学术论文的推广已成为提升研究可见度的重要手段。然而,现有的自动化方法在叙事连贯性、美学质量不足以及自我调整受限等方面存在困难,难以实现高效且引人入胜的传播。这些挑战的核心在于一个简单原则:若无法准确评估,则无从改进。为此,我们提出了EvoPresent,一个自我提升的智能体框架,它通过虚拟角色统一了连贯的叙事、美学感知的设计以及逼真的演示呈现。EvoPresent的核心是PresAesth,一个多任务强化学习(RL)美学模型,它提供了可靠的美学评分、缺陷调整和比较反馈,即使在美学训练数据有限的情况下也能实现迭代自我提升。为了系统评估这些方法,我们引入了EvoPresent基准,这是一个综合基准,包括:基于650篇顶级AI会议论文的多模态资源(幻灯片、视频和脚本)构建的演示生成质量评估,用于内容和设计的双重考量;以及美学意识评估,包含2000对美学水平各异的幻灯片,支持在评分、缺陷调整和比较任务上的联合训练与评估。我们的研究发现:(i)高质量反馈对于智能体自我提升至关重要,而初始能力本身并不能保证有效的自我修正。(ii)自动化生成管道在视觉设计与内容构建之间存在权衡。(iii)多任务RL训练在美学意识任务中展现出更强的泛化能力。
近期生成式医疗模型的进展受限于特定模态场景,阻碍了影像、病理和临床笔记等互补证据的整合。这种碎片化限制了它们向能够跨生物医学数据全谱系学习和推理的基础模型演进。我们提出了MeDiM,首个无需特定模态组件即可跨模态学习共享分布的医疗离散扩散模型。MeDiM统一了多项生成任务:实现图像与文本间的互译,并响应提示跨领域联合生成图像-报告对。基于离散扩散框架,MeDiM通过共享概率空间桥接视觉与语言表征。为实现统一且灵活的医疗生成,我们采用多模态大语言模型(MLLM)作为扩散主干,利用其先验知识与跨模态推理能力。两项关键设计被引入:(1)移除因果注意力掩码以实现双向上下文;(2)注入连续时间步嵌入以增强扩散感知。实验展示了高保真医疗生成(MIMIC-CXR上FID 16.60,PathGen上FID 24.19)及精准报告生成(METEOR 0.2650和0.2580)。联合生成的图像-报告对进一步提升了下游性能(BLEU-1提升6.43%,BLEU-2提升18.57%,BLEU-3提升31.58%,METEOR提升4.80%),表明MeDiM支持连贯且临床依据充分的多模态输出。
多模态大语言模型(MLLMs)近期在放射学领域取得了显著进展,通过将视觉感知与自然语言理解相结合。然而,这些模型常常生成缺乏临床依据的描述,即所谓的医学幻觉,这在要求精确性和基于图像输出的医疗应用中构成了严重风险。通过实证分析,我们发现提示诱导的幻觉在放射学MLLMs中仍然普遍存在,主要源于对临床部分的过度敏感。为解决这一问题,我们提出了临床对比解码(CCD),一种无需训练和检索的推理框架,它整合了来自特定任务放射学专家模型的结构化临床信号。CCD引入了一种双阶段对比机制,在生成过程中优化令牌级对数概率,从而在不修改基础MLLM的情况下提升临床保真度。在三个数据集和多个模型上的实验表明,CCD在放射学报告生成(RRG)任务中持续提升了整体性能。在MIMIC-CXR数据集上,当应用于最先进的RRG模型时,CCD在RadGraph-F1指标上实现了高达17%的提升。我们的方法为缓解医学幻觉提供了一种轻量级且可推广的解决方案,有效连接了放射学领域的专家模型与MLLMs。
我们提出了OneFlow,这是首个支持可变长度并发多模态生成的非自回归多模态模型。与强制文本和图像生成之间严格因果顺序的自回归模型不同,OneFlow结合了基于插入的离散文本标记编辑流(Edit Flow)与图像潜变量的流匹配(Flow Matching)。OneFlow通过分层采样实现了并发的文本-图像合成,优先考虑内容而非语法。通过在1B到8B不同模型规模上的控制实验,我们证明OneFlow在生成和理解任务上均优于自回归基线模型,同时训练所需的FLOPs最多减少50%。OneFlow不仅超越了自回归和基于扩散的方法,还解锁了并发生成、迭代优化以及类自然推理生成等新能力。
情境推理的一个关键组成部分是语言模型(LMs)绑定实体以便后续检索的能力。例如,一个LM可能通过将“Ann”与“pie”绑定来表示“Ann loves pie”,从而在询问“谁喜欢pie?”时能够检索出“Ann”。先前关于短列表绑定实体的研究发现,有强有力的证据表明LMs通过位置机制实现此类检索,即根据“Ann”在上下文中的位置来检索它。在本研究中,我们发现这种机制在更复杂的环境中泛化效果不佳;随着上下文中绑定实体数量的增加,位置机制在中间位置变得嘈杂且不可靠。为了弥补这一点,我们发现LMs通过词汇机制(使用其绑定对象“pie”检索“Ann”)和反射机制(通过直接指针检索“Ann”)来补充位置机制。通过对九个模型和十项绑定任务的大量实验,我们揭示了LMs如何混合这些机制以驱动模型行为的一致模式。我们利用这些见解开发了一个结合所有三种机制的因果模型,该模型在估计下一个标记分布时达到了95%的一致性。最后,我们展示了我们的模型能够泛化到包含实体组的开放式文本的显著更长输入中,进一步证明了我们的发现在更自然环境中的鲁棒性。总体而言,我们的研究为LMs如何在情境中绑定和检索实体建立了一个更完整的图景。
当前训练大型语言模型(LLMs)作为文本编码器的主流方法依赖于对比损失,这些方法将模型视为黑箱函数,舍弃了其生成与推理能力,转而追求静态嵌入表示。我们提出了GRACE(通过对比策略优化进行生成式表示学习),这一新颖框架重新构想对比信号,不再将其视为需最小化的损失,而是作为引导生成策略的奖励。在GRACE中,LLM扮演策略角色,生成明确且人类可理解的解释——即对其语义理解的结构化自然语言阐述。这些解释随后通过均值池化编码为高质量嵌入。利用策略梯度优化,我们采用多组件奖励函数训练模型,该函数最大化查询正例对之间的相似度,同时最小化与负例的相似度。这一过程将LLM从不可知的编码器转变为可解释的智能体,其推理过程透明且可审查。在MTEB基准测试中,GRACE实现了广泛的跨类别性能提升:在四个基础模型上,监督设置下的总体得分较基础模型提高了11.5%,无监督版本则提升了6.9%,同时保持了模型的通用能力。本工作将对比目标视为对解释的奖励,统一了表示学习与生成,以产生更强的嵌入和透明的解释。模型、数据及代码已公开于https://github.com/GasolSun36/GRACE。
我们提出Human3R,一个统一的、前馈式框架,用于从随意拍摄的单目视频中在线进行世界坐标系下的4D人体场景重建。与以往依赖多阶段流程、人体与场景间迭代接触感知优化及高度依赖(如人体检测、深度估计和SLAM预处理)的方法不同,Human3R在一次前向传递中联合恢复全局多人SMPL-X模型(“所有人”)、密集3D场景(“全方位”)及相机轨迹(“一次性完成”)。我们的方法基于4D在线重建模型CUT3R,并采用参数高效的视觉提示调优,力求保留CUT3R丰富的时空先验,同时实现多个SMPL-X模型的直接读取。Human3R作为一个统一模型,消除了繁重的依赖和迭代优化。仅需在相对小规模的合成数据集BEDLAM上训练一天,使用一块GPU,它便以卓越的效率实现了优异性能:实时速度(15帧/秒)下,低内存占用(8GB),单阶段内一次性重建多人体及3D场景。大量实验表明,Human3R在全局人体运动估计、局部人体网格恢复、视频深度估计及相机姿态估计等任务中,凭借单一统一模型,均达到了业界领先或具有竞争力的性能。我们希望Human3R能作为一个简洁而强大的基线,易于扩展至下游应用。代码可在https://fanegg.github.io/Human3R获取。
现代自然语言处理模型已实现前所未有的规模,然而其评估工具往往成为计算瓶颈,限制了研究进展。这一问题在训练过程中的评估指标上尤为突出,例如强化学习中的逐句奖励信号,这些指标必须直接在GPU上高效处理批量token ID。本文介绍了TensorBLEU,一种专为此特定用例从头设计的BLEU指标新实现。我们的方法在PyTorch中完全向量化,支持GPU加速的逐句计算,并引入了一种内存高效的计数机制。通过利用torch.unique创建紧凑的批量特定n-gram词典,我们的方法避免了传统基于哈希的向量化方法带来的巨大内存开销,使其适用于大规模词汇模型。我们将TensorBLEU与NLTK(CPU上基于token ID的BLEU计算标准库)进行了基准测试。实验表明,TensorBLEU在消费级GPU(NVIDIA T4)上提供了超过13倍的加速,在数据中心级硬件(NVIDIA A100)上加速超过40倍。这一性能将显著瓶颈转化为训练循环中可忽略的部分。通过明确其作为“Token-ID BLEU”的开发用途并开源我们的实现,我们为加速基于RL的模型微调等领域的研究提供了强大工具。
上下文排序(In-context Ranking, ICR)是信息检索(IR)领域的一种新兴范式,它通过将任务描述、候选文档及查询直接融入大语言模型(LLM)的输入提示中,并让LLM识别相关文档,从而利用其上下文理解能力。尽管ICR效果显著,但效率问题成为该范式的一大挑战,尤其是随着候选列表的扩展,注意力操作随上下文长度呈二次或超线性增长,导致计算负担加重。为此,本文首先揭示了针对ICR微调后的LLM注意力机制中固有的可挖掘结构:(1)文档间块稀疏性:注意力在单个文档块内密集,而在不同文档间稀疏;(2)查询-文档块相关性:中间层中某些查询词对文档块的注意力分数与该文档的实际相关性高度相关。基于这些观察,我们提出了BlockRank(块级上下文排序),一种创新方法,通过(a)在架构上强制实施观察到的文档间块稀疏性,将注意力复杂度从二次降至线性而不牺牲性能,以及(b)在微调过程中利用辅助对比训练目标优化真实相关文档的查询-文档块相关性,提升检索注意力。在BEIR、MSMarco和NQ数据集上使用Mistral-7B进行的实验表明,FLARE Mistral不仅匹配或超越了现有最先进的列表排序器及受控微调基线,而且在推理效率上显著提升(对于100个MSMarco文档,速度提升4.7倍),并能优雅地扩展至长上下文短列表,约500个文档(约10万上下文长度)在1秒内完成处理,为ICR提供了一个可扩展且高效的解决方案。
基于可验证奖励的强化学习(RLVR)是提升大型语言模型(LLM)推理能力的有力范式,但其成功关键在于有效的探索策略。理想的探索策略需应对两大核心挑战:在保证样本质量的同时,确保训练的稳定性。尽管标准的固定温度采样方法简单易行,却难以平衡这两者,因为高温会降低样本质量,而低温则限制新发现的产生。本研究提出了一种更为简洁高效的策略——探索性退火解码(EAD),其核心理念在于认识到探索对决定序列语义方向的早期标记最为关键。EAD实施了一种直观的“开头探索,结尾利用”策略,通过在生成过程中从高到低逐步退火采样温度来实现。这一动态调度机制在初期鼓励有意义的高层次多样性,随后逐渐降低温度以保持样本质量,并使采样分布贴近目标策略,这对训练稳定性至关重要。我们证明,EAD作为一种轻量级即插即用方法,显著提升了样本效率,在多种RLVR算法及不同规模的模型中均稳定优于固定温度采样。我们的研究表明,将探索与序列生成的天然动态相协调,为提升LLM推理能力提供了一条稳健的路径。
具备多步推理能力的大型推理模型(LRMs)展现了卓越的问题解决能力,然而它们也表现出令人担忧的安全漏洞,这些漏洞至今仍未被充分理解。在本研究中,我们通过机制可解释性的视角,探讨了为何推理模型的安全对齐会失效。采用线性探测方法追踪拒绝意图在令牌位置上的变化,我们发现了一个显著现象,称为“拒绝悬崖”:许多对齐不佳的推理模型能够正确识别有害提示,并在其思考过程中保持强烈的拒绝意图,但在输出生成前的最后几个令牌处,拒绝评分急剧下降。这表明这些模型并非本质不安全,而是其拒绝意图被系统性地抑制了。通过因果干预分析,我们识别出一组稀疏的注意力头,它们对拒绝行为产生了负面影响。仅消融这些头部中的3%,即可将攻击成功率降至10%以下。基于这些机制性洞察,我们提出了“悬崖即法官”(Cliff-as-a-Judge),一种新颖的数据选择方法,该方法识别出展现出最大拒绝悬崖的训练样本,以高效修复推理模型的安全对齐。此方法仅使用1.7%的常规安全训练数据,便实现了可媲美的安全提升,展示了安全对齐中“少即是多”的效应。
将物理世界精确地数字化为仿真就绪的虚拟环境,在增强现实、虚拟现实、游戏及机器人等多个领域展现出巨大潜力。然而,现有的三维重建与场景理解方法往往在几何完整性、物体交互性、物理合理性、照片级真实感渲染或可靠动态模拟所需的真实物理属性等关键方面存在不足。为应对这些挑战,我们提出了HoloScene,一种创新的交互式三维重建框架,能够同时满足上述所有要求。HoloScene采用了一种全面的交互式场景图表示法,不仅编码了物体的几何形状、外观及物理属性,还囊括了层级结构与物体间的关系。重建过程被构建为一个基于能量的优化问题,将观测数据、物理约束与生成先验统一整合进一个连贯的目标函数中。通过结合采样探索与梯度优化的混合策略,优化过程得以高效执行。由此生成的数字孪生体展现出完整精确的几何结构、物理稳定性以及从新视角观察时的逼真渲染效果。在多个基准数据集上的评估验证了其卓越性能,而在互动游戏与实时数字孪生操作中的实际应用案例,则进一步彰显了HoloScene广泛的适用性与高效性。项目页面:https://xiahongchi.github.io/HoloScene。
大型语言模型(LLMs)在广泛任务中展现出令人瞩目的能力,然而这种成功是否反映了真正的推理能力还是复杂的记忆机制仍不明确。我们提出了AInstein框架,用于测试LLMs是否能够仅凭其预训练的参数知识生成针对AI研究问题的有效解决方案——无需领域特定的微调、检索增强或其他外部辅助。我们的方法从高质量的ICLR 2025投稿中提炼出精简的问题陈述,随后让专门的求解代理通过迭代的批判循环提出并优化技术方案,模拟科学探究中提案、评审与修订的核心循环。我们采用LLM作为评判者的范式,结合结构化评分标准,辅以针对性的人工核查,对1,214篇按接受等级(口头报告、亮点展示、海报展示)分层的ICLR论文进行了评估。性能通过三个指标衡量:成功率(解决方案是否解决了问题?)、再发现度(是否与人类提出的方法一致?)以及新颖性(是否产生了有效且原创的方法?)。结果表明,尽管LLMs能够重新发现可行的解决方案,并偶尔提出创造性的替代方案,但其解决问题的能力仍显脆弱,且对问题表述高度敏感。这些发现首次大规模揭示了LLMs作为自主科学问题解决者的能力边界,既凸显了其潜在优势,也指出了当前的局限性。
无需训练的加速技术已成为基于扩散模型的视频生成领域中的前沿研究方向。扩散模型推理过程中潜在变量的冗余性为加速提供了天然的切入点。本文中,我们将推理过程分解为编码、去噪和解码三个阶段,并观察到基于缓存的加速方法往往会在后两个阶段导致显著的内存激增。针对这一问题,我们分析了不同阶段推理的特性,并提出了针对性的内存优化策略:1)异步缓存交换;2)特征分块;3)切片解码潜在变量。同时,我们确保这三种策略引入的时间开销低于其带来的加速收益。与基线方法相比,我们的方法在保持质量退化在可接受范围内的同时,实现了更快的推理速度和更低的内存占用。代码已开源,详见 https://github.com/NKUShaw/LightCache。
直接偏好优化(DPO)作为一种简单有效的方法,已广泛应用于大型语言模型的对齐任务。然而,其依赖固定温度参数的特性导致在处理多样化偏好数据时训练效果欠佳,容易对简单样本过拟合,而对信息量大的样本学习不足。针对这一问题,近期涌现了多种改进方法。虽然IPO方法解决了普遍性的过拟合问题,但其统一的正则化策略可能过于保守。更为针对性的beta-DPO方法则存在自身局限:其批次级别的适应机制对混合边际对应用单一折衷温度,线性更新规则可能导致不稳定的负beta值,且其过滤机制会丢弃潜在有用的训练信号。本文提出边际自适应直接偏好优化(MADPO),该方法提供了一个稳定、数据保留且实例级别的解决方案。MADPO采用实用的两步策略:首先训练奖励模型以估计偏好边际,随后利用这些边际为每个训练样本的DPO损失应用连续自适应权重。这种重加权方案创建了一个有效的目标边际,对困难对进行放大,对简单对进行抑制,从而实现对学习信号的精细控制。我们提供了全面的理论分析,证明MADPO具有良好优化的目标函数,并对奖励模型估计误差具有鲁棒性。通过在情感生成任务上的实验验证,MADPO在不同质量的数据集上均显著优于现有基线方法,在高质量数据上实现了高达+33.3%的性能提升,在低质量数据上也有+10.5%的提升。实验结果确立了MADPO作为一种更稳健、更原则性的偏好对齐方法。
我们提出了平衡匹配(Equilibrium Matching, EqM),这是一个从平衡动力学视角构建的生成建模框架。EqM摒弃了传统扩散模型和基于流的生成模型中非平衡、时间条件依赖的动力学机制,转而学习一个隐含能量景观的平衡梯度。通过这种方法,在推理阶段我们可以采用基于优化的采样过程,其中样本通过在学习到的景观上进行梯度下降获得,且支持可调节的步长、自适应优化器以及自适应计算。实验表明,EqM在生成性能上超越了扩散/流模型,在ImageNet 256×256数据集上达到了1.90的FID分数。理论上,EqM也被证明能够从数据流形中有效学习和采样。除了生成任务,EqM作为一个灵活框架,还能自然地处理部分噪声图像去噪、异常检测(OOD detection)以及图像合成等任务。通过用统一的平衡景观取代时间条件依赖的速度场,EqM在流模型与基于能量的模型之间架起了更紧密的桥梁,并为优化驱动的推理提供了一条简洁路径。
大型语言模型作为科学助手展现出巨大潜力,然而现有智能体要么仅依赖算法进化,要么孤立进行深度研究,这两种方式都存在显著局限。纯粹的算法进化,如AlphaEvolve所示,仅依赖于LLM的内部知识,在复杂领域迅速达到瓶颈;而单纯的深度研究则提出未经验证的想法,导致方案不切实际或难以实施。我们提出了DeepEvolve,一个将深度研究与算法进化相结合的智能体,它整合了外部知识检索、跨文件代码编辑和系统化调试,形成反馈驱动的迭代循环。每次迭代不仅提出新假设,还对其进行精炼、实现与测试,避免了浅层改进与无效的过度优化。在化学、数学、生物学、材料科学及专利领域的九项基准测试中,DeepEvolve持续优化初始算法,生成可执行的新算法,并带来持续的性能提升。通过弥合无引导进化与无基础研究之间的鸿沟,DeepEvolve为推进科学算法发现提供了一个可靠框架。我们的代码已发布于https://github.com/liugangcode/deepevolve。
RAG(检索增强生成)系统与网络代理在多跳深度搜索任务上的评估日益增多,然而当前实践存在两大主要局限。首先,多数基准测试在问题文本中泄露了推理路径,使得模型能够依赖表面线索而非自主发现推理链条。其次,评估通常简化为单一通过率,将多样行为压缩为一个分数,掩盖了失败是源于搜索不足、知识利用不佳还是不恰当拒绝。为解决这些问题,我们提出了WebDetective,一个无提示多跳问题基准,搭配受控的维基百科沙盒,确保模型行为的完全可追溯性,以及一个全面评估框架,区分搜索充分性、知识利用和拒绝行为。我们对25个顶尖模型的评估揭示了所有架构中的系统性弱点:尽管证据充分,模型在知识利用上仍显吃力;在证据缺失时,几乎不存在恰当的拒绝行为。这些模式暴露了一个根本性差距:当今系统擅长执行给定的推理路径,但在需要发现这些路径时却表现不佳。我们开发了一个代理工作流——EvidenceLoop,明确针对我们基准识别出的挑战,整合了验证循环和系统化的证据追踪,提升了搜索与综合能力。这一基线表明,WebDetective的诊断框架能够指导具体的架构改进,确立我们的基准为开发真正自主推理系统而非模式跟随代理的关键工具。
现有的大多数以自我为中心的视觉理解基准主要聚焦于日间场景,忽视了现实应用中不可避免的低光照条件。为探究这一空白,我们推出了EgoNight,首个针对夜间自我中心视觉的综合基准,其核心任务为视觉问答(VQA)。EgoNight的一大特色是引入了昼夜对齐的视频,通过利用日间数据提升夜间标注质量,并揭示出光照条件间的显著性能差异。为此,我们收集了由Blender渲染的合成视频及真实世界录制的视频,确保场景与动作在视觉和时间上均保持一致。依托这些配对视频,我们构建了EgoNight-VQA,辅以创新的日间增强夜间自动标注引擎,并通过大量人工验证进行精炼。每个问答对均经过标注员双重核查以确保可靠性。总计,EgoNight-VQA包含90个视频中的3658个问答对,涵盖12种多样的问答类型,凝聚了超过300小时的人工劳动。对当前最先进的多模态大语言模型(MLLMs)的评估显示,从日间向夜间迁移时性能大幅下降,凸显了低光环境下推理的挑战。除VQA外,EgoNight还引入了两项辅助任务——昼夜对应检索及夜间自我中心深度估计,进一步探索现有模型的边界。我们相信,EgoNight-VQA为推进应用导向的自我中心视觉研究及开发跨光照域泛化模型奠定了坚实基础。所有数据与代码将在论文被接受后公开。
在医疗等敏感领域部署自主AI代理,带来了安全、安保和隐私方面的重大风险。这些代理可能偏离用户目标、违反数据处理政策,或遭受敌对攻击而受损。要缓解这些危险,需要一种机制来正式保证代理的行为符合预设的安全约束,这是现有系统尚未完全解决的挑战。我们提出了VeriGuard,一种新颖的框架,通过设计用于稳健且可验证正确性的双阶段架构,为基于LLM的代理提供正式的安全保障。初始的离线阶段包含一个全面的验证过程,首先明确用户意图以确立精确的安全规范。VeriGuard随后合成行为策略,并通过测试和形式验证双重手段证明其符合这些规范。这一迭代过程不断优化策略直至其被确认为正确。紧接着,第二阶段提供在线动作监控,VeriGuard作为运行时监控器,在执行前验证每个提议的代理动作是否符合预先验证的策略。这种将详尽的离线验证与轻量级的在线监控分离的做法,使得正式保证能够实际应用,为LLM代理的信任度提供了强有力的保障。
情感支持对话(ESC)在通过交流缓解心理压力、提供情感价值方面发挥着至关重要的作用。尽管近期研究主要集中于数据增强与合成语料库构建,却往往忽视了支撑有效情感支持的深层认知推理过程。为填补这一空白,我们提出了CARE这一创新框架,它无需依赖大规模合成数据,便能强化ESC中的推理能力。CARE巧妙利用原始ESC训练集,引导模型生成逻辑连贯且富有支持性的回应,从而显著提升认知推理水平。在此基础上,我们进一步采用强化学习技术,对推理过程进行优化与巩固。实验结果表明,CARE在提升回应的逻辑严密性与支持质量方面成效显著,推动了更具同理心、认知稳健且拟人化的情感支持系统的发展。
尽管后训练量化被广泛采用以实现大规模语言模型的高效部署,但量化鲁棒性背后的机制仍不明确。我们对开源语言模型训练轨迹中的量化退化进行了全面分析,涵盖高达320亿参数和15万亿训练标记的规模,以准确评估训练动态与量化性能之间的关系。我们的关键发现是,大规模训练中的量化误差由学习率与其他训练超参数之间的复杂相互作用驱动。具体而言,一旦学习率衰减,验证损失与量化误差就会发生分化,这在很大程度上独立于训练数据规模。为了探究训练动态的干预措施并识别能够有利调节量化鲁棒性的特定配置,我们在受控实验中训练了多达1000亿标记的自有模型。我们的研究结果挑战了增加数据集规模必然损害量化效果的假设,相反证明了策略性的训练超参数干预能够在规模化场景下提升量化质量。
参考视频对象分割(RVOS)旨在通过自然语言描述指导,在视频中分割特定对象。RVOS的核心挑战在于将抽象的语言概念锚定到一组具体的像素上,并在视频的复杂动态中持续分割这些像素。面对这一难题,先前的研究通常将该任务分解为一种实用的“先定位后分割”流程。然而,这种级联设计通过将语义简化为粗略的几何提示(例如点)造成了信息瓶颈,并且由于分割过程往往与初始的语言定位脱节,难以保持时间一致性。为了克服这些根本性限制,我们提出了FlowRVS,一个将RVOS重新构想为条件连续流问题的新框架。这使得我们能够利用预训练T2V模型的固有优势,实现精细的像素控制、文本-视频语义对齐以及时间连贯性。不同于传统的从噪声生成掩码或直接预测掩码,我们通过从视频的整体表示到目标掩码学习一种直接的、语言引导的变形来重新定义任务。我们的一阶段生成方法在所有主要RVOS基准测试中均取得了新的最先进成果。具体而言,在MeViS上实现了51.1的J&F(比之前的最佳结果提高了1.6),在零样本Ref-DAVIS17上达到了73.3(提高了2.7),展示了将视频理解任务建模为连续变形过程的巨大潜力。
大型语言模型(LLMs)易产生幻觉,即生成看似合理但事实错误的陈述。本研究通过三项主要贡献,深入探讨了这一失效模式的内在架构根源。首先,为可靠追踪内部语义失效,我们提出了分布语义追踪(DST),这是一个统一框架,整合了现有的可解释性技术,以生成模型推理的因果图,将意义视为上下文的函数(分布语义)。其次,我们确定了模型层级的“承诺层”,在此层,模型的内部表征不可避免地偏离事实性,标志着幻觉的必然发生。第三,我们揭示了这些失效的底层机制。我们观察到不同计算路径之间的冲突,并运用双系统理论进行解读:一条快速、启发式的联想路径(类似系统1)与一条缓慢、审慎的上下文路径(类似系统2),导致了诸如“推理捷径劫持”等可预测的失效模式。我们的框架能够量化上下文路径的连贯性,揭示其与幻觉率之间存在强烈的负相关性(rho = -0.863),表明这些失效是内部语义弱点的可预见结果。最终,我们提供了关于Transformer架构中幻觉如何、何时及为何发生的机制性解释。
高斯过程(GP)回归提供了一种策略,通过减少能量及其对原子坐标的导数需要被评估的次数,来加速高维能量面上的鞍点搜索。然而,超参数优化中的计算开销可能很大,使得该方法效率低下。如果搜索过于深入那些GP模型未能充分表示的区域,也可能导致失败。本文通过采用几何感知的最优传输度量以及一种主动剪枝策略解决了这些挑战,该策略在远点采样中对每种原子类型的Wasserstein-1距离求和,选取固定大小的几何多样性构型子集,以避免随着观测次数增加GP更新成本迅速上升。通过引入置换不变度量增强了稳定性,该度量为早停提供了可靠的信任半径,并对信号方差的增长施加了对数障碍惩罚。这些基于物理启发的算法改进在238个来自先前发布的化学反应数据集的挑战性构型上,将平均计算时间减少至不到一半,证明了其有效性。通过这些改进,GP方法被确立为一种稳健且可扩展的算法,适用于在能量和原子力评估需要大量计算努力时加速鞍点搜索。
视觉语言模型(VLMs)通常以短文本窗口(<77个词元)进行预训练,这导致长格式描述被迫截断。然而,从大规模开源文献中提取的生物医学描述分布显示,大量描述远超77个词元。为此,我们通过扩展VLMs中文本编码器的上下文长度,研究了预训练对长格式生物医学描述的影响。我们发现,更长的上下文(从而利用长格式描述提供的额外监督信息)与更好的检索和分类性能相关。基于这一发现,我们引入了BIOMEDICA-LongCAP,一个包含100万张图像-描述对的数据集,这些描述来自全文文章,提供了更长且更具上下文意识的文本监督。利用BIOMEDICA-LongCAP,我们训练了BMC-LongCLIP,这是一种支持最多512个词元窗口的长上下文生物医学VLM。我们的模型将上下文容量扩展了6.6倍,将词元浪费从55%降至仅2.2%。在长描述检索基准测试中,BMC-LongCLIP在Recall@1上实现了高达+30%的绝对提升,分类平均提高了+2%,同时比短上下文模型收敛更快。我们的结果表明,长上下文建模是推进生物医学VLMs的一个有前景的方向。
现实世界中的大规模语言模型部署(如对话式AI系统、代码生成助手)自然会产生大量隐含的用户不满(DSAT)信号,因为用户通过反复修正、纠正和表达偏好来寻求更佳答案,而显式的满意度(SAT)反馈却相对稀缺。现有的偏好学习方法与这种数据特征并不契合,因为它们依赖于昂贵的人工标注或假设存在大量正面响应。本文提出了DRIFT(基于不满信号的迭代偏好训练),该方法以现实世界中的DSAT信号为训练锚点,并从不断演进的策略中动态采样正面样本。实证表明,基于真实世界WildFeedback数据集和合成UltraFeedback数据集训练的DRIFT模型,在WildBench任务评分上分别提升了+6.23%(7B)和+7.61%(14B),在AlpacaEval2胜率上分别提升了+8.95%(7B)和+12.29%(14B),超越了迭代DPO和SPIN等强基线方法。在更大规模上,改进尤为显著:采用DRIFT训练的14B模型在WildBench上超越了GPT-4o-mini。进一步分析显示,DRIFT还保持了探索能力,生成了更多样化的高奖励解决方案,而非局限于狭窄的子集。理论上,我们证明了这一设计保留了偏好边际,避免了梯度退化。这些结果表明,DRIFT是一种有效且可扩展的模型后训练方法,能够充分利用最丰富且信息量最大的信号。代码和数据可在https://github.com/cacayaya/DRIFT.git获取。
已有研究表明,代码数据能够增强大语言模型(LLMs)的推理能力,但尚不清楚代码的哪些方面对此贡献最大。我们采用一种系统化、以数据为中心的研究框架来探讨这一问题。我们构建了十种编程语言的并行指令数据集,并应用了选择性破坏代码结构或语义属性的受控扰动。随后,我们在每种变体上对来自五个模型家族、八种规模的LLMs进行微调,并评估它们在自然语言、数学及代码任务上的表现。通过3,331次实验,我们的结果显示,LLMs对结构扰动的脆弱性高于语义扰动,尤其在数学和代码任务上。适当的抽象形式,如伪代码和流程图,与代码同样有效,同时以更少的token编码相同信息且不严格遵循原语法,往往能保持甚至提升性能。值得注意的是,即使代码被破坏并带有误导信号,只要表面规律性得以维持,其表现仍具竞争力。最后,语法风格也影响任务特定增益,Python更利于自然语言推理,而Java和Rust等低级语言则更利于数学推理。通过这一系统化框架,我们旨在深入理解代码不同属性如何影响推理,并为设计提升LLM推理能力的训练数据提供指导。
机器学习模型的性能在很大程度上依赖于训练数据。大规模、高质量标注数据集的稀缺性给构建鲁棒模型带来了重大挑战。为解决这一问题,通过模拟和生成模型产生的合成数据已成为一种颇具前景的解决方案,它能够增强数据集的多样性,提升模型的性能、可靠性和抗干扰能力。然而,评估这类生成数据的质量需要有效的度量标准。本文提出了合成数据集质量度量(SDQM),用于评估面向目标检测任务的数据质量,且无需等待模型训练收敛。该度量标准能够更高效地生成和筛选合成数据集,有效应对资源受限的目标检测任务中的关键挑战。在我们的实验中,SDQM与领先的目标检测模型YOLOv11的平均精度(mAP)得分表现出强相关性,而以往的度量标准仅呈现中等或弱相关性。此外,SDQM还为提升数据集质量提供了可操作的见解,最大限度地减少了成本高昂的迭代训练需求。这一可扩展且高效的度量标准为评估合成数据设立了新标杆。SDQM的代码已发布于https://github.com/ayushzenith/SDQM。
通过深度学习模型实现的自动和弦识别(ACR)已逐步取得显著的识别准确率,但仍面临两大关键挑战。首先,先前的研究主要集中于音频领域的ACR,而符号音乐(如乐谱)的ACR因数据稀缺而受到较少关注。其次,现有方法仍缺乏与人类音乐分析实践相契合的策略。为应对这些挑战,我们做出了两项贡献:(1)我们推出了POP909-CL,这是POP909数据集的增强版本,包含节奏对齐的内容及人工校正的和弦、节拍、调性和拍号标签;(2)我们提出了BACHI,一种符号和弦识别模型,该模型将任务分解为不同的决策步骤,即边界检测及和弦根音、性质与低音(转位)的迭代排序。这一机制模拟了人类听觉训练实践。实验表明,BACHI在古典与流行音乐基准测试中均达到了当前最优的和弦识别性能,消融研究验证了各模块的有效性。
AI模型在数据分析和可视化中的应用日益广泛,然而现有基准测试鲜少针对散点图特定任务进行评估,这限制了对模型性能的深入理解。为填补这一常见图表类型的空白,我们引入了一个包含六种数据生成器和17种图表设计、超过18,000个标注散点图的合成数据集,并基于此建立了一个基准测试。我们采用N-shot提示法,对来自OpenAI和Google的专有模型在五个基于聚类边界框、中心坐标及离群点坐标标注的任务上进行了评估。OpenAI模型和Gemini 2.5 Flash,特别是在提供示例提示的情况下,在聚类计数任务中表现良好,而Flash在离群点识别上更是达到了90%以上的准确率。然而,在定位相关任务上的结果不尽如人意:除Flash在离群点识别上达到65.01%外,精确率和召回率大多接近或低于50%。此外,图表设计对性能的影响虽为次要因素,但建议避免使用宽高比过大(如16:9和21:9)或颜色随机分配的散点图。补充材料可访问https://github.com/feedzai/biy-paper获取。
在过去的二十年里,语音情感识别(SER)逐渐受到广泛关注。为训练SER系统,研究者们收集了由众包或内部评分者标注的情感语音数据库,这些评分者从预定义类别中选择情感。然而,评分者之间的分歧十分常见。传统方法将这些分歧视为噪声,通过聚合标签形成单一共识目标。虽然这简化了SER为单标签任务,却忽视了人类情感感知固有的主观性。本论文挑战了这些假设,并提出以下问题:(1) 少数情感评分是否应被舍弃?(2) SER系统是否应仅基于少数个体的感知进行学习?(3) SER系统是否应仅预测每个样本的一种情感? 心理学研究表明,情感感知具有主观性和模糊性,情感边界存在重叠。我们提出了新的建模与评估视角:(1) 保留所有情感评分,并用软标签分布表示。基于个体标注者评分训练模型,并与标准SER系统联合优化,在共识标签测试中提升了性能。(2) 重新定义SER评估,纳入所有情感数据并允许情感共存(如悲伤与愤怒)。我们提出“全包含规则”,聚合所有评分以最大化标签表示的多样性。在四个英语情感数据库上的实验显示,其性能优于多数票和相对多数票标注。(3) 构建惩罚矩阵,在训练中抑制不常见的情感组合。将其融入损失函数进一步提升了性能。总体而言,接纳少数评分、多标注者及多情感预测,能够构建出更稳健且与人类感知一致的SER系统。
视觉-语言-动作模型(VLAs)在机器人控制领域展现了卓越的性能。然而,由于它们采用单一推理范式,在执行需要高精度的任务时仍存在根本性局限。尽管利用外部验证器进行测试时缩放的方法显示出潜力,但这些方法需要额外训练,并且难以泛化到未见过的条件。我们提出了掩码分布引导选择(MG-Select),这是一种新颖的测试时缩放框架,它利用模型内部属性,无需额外训练或外部模块。我们的方法采用KL散度作为置信度度量,从参考动作令牌分布中选择最优动作,该参考分布由同一VLA生成,但输入为随机掩码的状态和语言条件,确保在保持与目标任务分布一致的同时达到最大不确定性。此外,我们提出了一种联合训练策略,通过对状态和语言条件应用dropout,使模型能够同时学习条件分布和无条件分布,从而进一步提升参考分布的质量。实验表明,MG-Select实现了显著的性能提升,包括在现实世界分布内/分布外任务中分别提高了28%/35%,以及在仅用30次演示训练的RoboCasa拾取放置任务上获得了168%的相对增益。
近期,多模态大语言模型(LLMs)在基于图表的视觉问答任务中展现出潜力,但其在未标注图表上的表现急剧下降,尤其是在需要精确视觉解读而非依赖文本捷径的情况下。为此,我们提出了ChartAgent,一种新颖的代理框架,它直接在图表的空间域内执行视觉推理。与文本链式思维推理不同,ChartAgent迭代地将查询分解为视觉子任务,并通过一系列专门动作(如绘制标注、裁剪区域——例如分割饼图切片、隔离柱状图——以及定位坐标轴)主动操作和交互图表图像,利用一套图表专用视觉工具完成每个子任务。这一迭代推理过程紧密模拟了人类理解图表的认知策略。ChartAgent在ChartBench和ChartX基准测试中达到了最先进的准确率,整体上比之前的方法提升了高达16.07%的绝对增益,在未标注且数值密集的查询上更是提升了17.31%。此外,我们的分析表明,ChartAgent(a)在多种图表类型上均有效,(b)在不同视觉和推理复杂度级别上均取得最高分,以及(c)作为一个即插即用框架,能够提升多种底层LLMs的性能。我们的工作是首批展示利用工具增强的多模态代理进行视觉基础推理以理解图表的研究之一。
现代偏好对齐技术,如最佳N选一(BoN)采样,依赖于通过成对比较数据训练出的奖励模型。尽管这种方法在学习相对偏好方面效果显著,却未能捕捉到响应可接受性的信号,导致系统容易在众多不可接受的选项中选出最不差的那个。这对于难题提示尤为棘手,因为随着样本数量的增加,此类错误接受的风险也随之上升。本文针对这一关键可靠性缺口,提出了一种新的数据收集与建模框架。受离散选择模型启发,我们在偏好数据中引入外部选项,训练出一个不仅能区分何为更优、还能判断何为足够好的奖励模型。利用这一能力,我们创建了一种自适应推理策略——循环内最佳迷你N选一,它将生成预算划分为多个顺序循环,并配备经过校准的提前退出条件。实验表明,当作为对齐防护栏进行调优时,该策略将可靠性故障减少了70%;而在作为推理加速器调优时,在IMDB情感分析场景下,平均推理速度提升了超过22%。因此,我们为实践者提供了一个原则性强且灵活的框架,以明确管理可靠性与计算效率之间的权衡。
近期关于上下文与记忆基准测试的研究主要集中于对话场景,然而,在动态的企业环境中评估记忆能力对于其有效应用至关重要。我们推出了MEMTRACK,一个旨在多平台代理环境中评估长期记忆与状态跟踪的基准测试。MEMTRACK通过整合跨多个沟通与生产力平台(如Slack、Linear和Git)的异步事件,模拟了现实的组织工作流程。每个基准测试实例提供一个按时间顺序交叉排列的平台时间线,包含噪声、冲突、相互引用的信息,以及潜在的代码库/文件系统理解与探索。因此,我们的基准测试涵盖了记忆能力的多个方面,如获取、选择与冲突解决。MEMTRACK数据集通过专家手动设计与基于代理的可扩展合成相结合的方式精心构建,生成了基于真实世界软件开发过程的生态有效场景。我们引入了正确性、效率与冗余性等关键指标,这些指标超越了简单的问答性能,捕捉了记忆机制的有效性。对当前最先进的大型语言模型(LLMs)及记忆后端进行的实验揭示了在长时程记忆利用、跨平台依赖处理及矛盾解决方面存在的挑战。值得注意的是,表现最佳的GPT-5模型在MEMTRACK上仅获得了60%的正确性得分。本工作为推进记忆增强代理的评估研究提供了一个可扩展的框架,超越了现有对对话设置的关注,并为复杂组织环境下的多代理、多平台记忆基准测试奠定了基础。
头发护理是日常生活中不可或缺的活动,然而对于行动不便者而言难以触及,对自主机器人系统来说也颇具挑战,这源于头发精细的物理结构和复杂的动态特性。本研究提出了DYMO-Hair,一个基于模型的机器人头发护理系统。我们引入了一种新颖的动态学习范式,该范式适用于如头发这样的体积性物质,依赖于动作条件下的潜在状态编辑机制,并结合了一个紧凑的3D潜在空间,该空间涵盖了多样化的发型,以提升泛化能力。此潜在空间通过一个创新的头发物理模拟器进行大规模预训练,从而实现对未见发型的泛化。利用该动态模型与模型预测路径积分(MPPI)规划器,DYMO-Hair能够执行基于视觉目标的发型设计。仿真实验表明,DYMO-Hair的动态模型在捕捉多样化、未见发型的局部变形方面优于基线方法。在闭环发型设计任务中,DYMO-Hair对未见发型的处理也超越了基线,平均几何误差降低了22%,成功率提高了42%,相较于当前最先进的系统。真实世界实验展示了我们的系统对假发的零样本迁移能力,在极具挑战性的未见发型上实现了持续的成功,而现有最先进系统则无法做到。这些成果共同为基于模型的机器人头发护理奠定了基础,推动着在无约束物理环境中实现更通用、灵活且易于获取的机器人发型设计。更多详情请访问我们的项目页面:https://chengyzhao.github.io/DYMOHair-web/。
将具备推理能力的大型语言模型(LLM)的思维轨迹提炼至较小模型已被证实有效。然而,关于模型性能如何随蒸馏数据量扩展的研究却相对匮乏。本研究中,我们探讨了在两种小型非推理LLM上提炼编程竞赛技能的扩展趋势。我们验证了一个假设,即存在一个“代码推理低谷”:随着数据量的增加,编程竞赛的下游性能首先下降,随后以快于对数线性的速度稳步提升。在识别出这一趋势后,我们进一步在相同数据上对模型进行了两个不同蒸馏阶段的微调,以确定它们各自学习阶段的具体结论。我们发现,在低至中低数据量范围内,小型模型从较易的编程问题中获益显著大于从较难问题中。此外,令人惊讶的是,训练数据中输出的正确性对蒸馏结果并无影响。我们的研究在超越直觉理解代码推理蒸馏训练动态方面迈出了重要一步。
大型语言模型(LLMs)在众多自然语言处理任务中表现出色,但仍易产生幻觉,这限制了其在现实应用中的可信度。我们推出了HalluGuard,一个拥有40亿参数的小型推理模型(SRM),旨在缓解检索增强生成(RAG)中的幻觉问题。HalluGuard能够将文档-声明对分类为有据可依或幻觉生成,并生成基于证据的合理解释以增强透明度。我们的方法结合了:(i)从FineWeb衍生并通过多阶段筛选与数据重构优化的领域无关合成数据集,(ii)合成的有据可依与幻觉声明,以及(iii)采用几率比偏好优化进行偏好微调,将大模型的推理能力蒸馏至更小的骨干网络中。在LLM-AggreFact基准测试的RAGTruth子集上,HalluGuard实现了84.0%的平衡准确率(BAcc),与专用模型MiniCheck(70亿参数;84.0%)和Granite Guardian 3.3(80亿参数;82.2%)旗鼓相当,而参数数量仅为它们的一半左右。在整个基准测试中,其平衡准确率达到75.7%,与GPT-4o等更大规模的通用LLMs(75.9%)不相上下。我们将在论文被接受后,依据Apache 2.0协议发布HalluGuard及其相关数据集。