每日精选AI研究论文及翻译
监督微调(SFT)是领域适应的标准范式,但常伴随灾难性遗忘的代价。与之形成鲜明对比的是,策略强化学习(RL)能有效保留通用能力。我们探究这一差异并发现根本性的分布鸿沟:RL与模型内部信念保持一致,而SFT迫使模型拟合外部监督。这种错配常表现为“置信冲突”标记——即具有低概率但低熵的特征。在此类情形中,模型对其自身预测高度确信,却被强制学习相悖的标注真值,从而引发破坏性梯度更新。为解决该问题,我们提出熵自适应微调(EAFT)。与仅依赖预测概率的方法不同,EAFT利用标记级熵作为门控机制,以区分认知不确定性与知识冲突。这使得模型能够从不确定样本中学习,同时抑制冲突数据的梯度更新。在Qwen和GLM系列(参数量4B至32B)上开展的数学、医疗与智能体领域大规模实验验证了我们的假设。EAFT在保持标准SFT下游性能的同时,显著缓解了通用能力的退化。
我们研究在开放型具身环境中持续获取技能的问题,这类环境要求智能体必须构建、优化并复用不断扩展的可执行技能库。我们提出程序化技能网络(PSN)框架,该框架将技能定义为可执行的符号化程序,形成可通过经验演化的组合式网络。PSN通过大语言模型实例化三大核心机制:(1)用于技能组合结构化故障定位的REFLECT机制;(2)采用成熟度感知更新门控的渐进式优化,在稳定可靠技能的同时保持对不确定性技能的可塑性;(3)基于回滚验证的规范化结构重构,维持网络紧凑性。我们进一步揭示PSN的学习动态与神经网络训练存在结构相似性。在MineDojo和Crafter平台上的实验表明,该方法在开放型任务分布中展现出鲁棒的技能复用能力、快速适应性和强泛化性能。\footnote{代码将开源发布}
大型语言模型(LLMs)与外部工具的融合显著拓展了智能体的能力边界。然而,随着模型与工具多样性的同步增长,选择最优的模型-工具组合已成为高维优化难题。现有方案通常依赖单一模型或固定工具调用逻辑,未能充分利用异构模型-工具组合间的性能差异。本文提出ATLAS(自适应工具-LLM对齐与协同调用框架),这是一种面向跨领域复杂推理的动态工具调用双路径架构。该框架通过双路径机制运作:(1)基于无训练聚类路由的领域适配路径,利用经验先验实现领域特异性对齐;(2)基于强化学习的多步路由路径,通过自主轨迹探索实现分布外泛化。在15个基准测试上的大规模实验表明,我们的方法在分布内任务(+10.1%)和分布外任务(+13.1%)上均超越GPT-4o等闭源模型,显著优于现有路由方案。此外,通过协调专用多模态工具,本框架在视觉推理任务中展现出显著优势。
大型语言模型评估基准的快速激增,亟需建立系统性方法来评估基准本身的质量。我们提出Benchmark²框架,该综合框架包含三项互补指标:(1)跨基准排名一致性,衡量基准是否产生与同类基准相符的模型排名;(2)区分度评分,量化基准区分不同模型的能力;(3)能力对齐偏差,用于识别同一模型家族中强模型失败而弱模型成功的异常实例。我们在涵盖数学、推理和知识领域的15个基准上开展大规模实验,评估了四个模型家族的11个大型语言模型。分析表明现有基准存在显著的质量差异,并证明基于我们指标的精选基准构建方案,能够以大幅缩减的测试集实现相当的评估效能。
音视频联合生成技术发展迅猛,但仍面临重大挑战。非商业化方案普遍存在视听异步、唇语对齐不佳及单模态退化等问题,其根源在于视听对应建模薄弱、泛化能力有限以及高质量密集标注数据稀缺。为应对这些挑战,我们推出Klear系统,并从三大维度展开探索——模型架构、训练策略与数据构建。架构层面,我们采用统一DiT模块的单塔设计和全视角注意力机制,实现紧密的视听对齐与强大扩展性。训练策略上,我们实施渐进式多任务方案——通过随机模态掩码实现跨任务联合优化,结合多阶段课程学习,从而构建鲁棒表征、强化视听对齐的世界知识并防止单模态崩溃。数据方面,我们推出首个大规模密集标注音视频数据集,并创新性地建立自动化数据构建流程,可对数百万条多样化、高质量、严格对齐的音频-视频-文本三元组进行标注筛选。基于此,Klear能够扩展至海量数据集,在联合生成与单模态生成场景下均实现高保真度、语义与时序精准对齐的指令跟随生成,同时展现出对分布外场景的强泛化能力。在多项任务中,该系统以显著优势超越现有方法,达到与Veo 3相媲美的性能,为新一代音视频合成提供了统一且可扩展的解决方案。
在我们物理的4D(三维空间+时间)世界中,动态物体持续演化、形变并与其他物体交互,形成了多样化的四维场景动态。本文提出了一种通用生成框架CHORD,通过编排动态物体与场景来合成此类现象。传统基于规则的图形学流程虽能通过类别特定启发式方法创建这些动态,但过程费时费力且难以扩展。近期基于学习的方法通常需要大规模数据集,但可能无法覆盖所有目标物体类别。我们的方法通过提出基于蒸馏的流程,从二维视频的欧拉表示中提取隐藏的丰富拉格朗日运动信息,从而继承了视频生成模型的普适性。本方法具有通用性、多功能性且与物体类别无关。我们通过生成多样化多体四维动态的实验验证其有效性,展示其相较于现有方法的优势,并证明其在生成机器人操作策略方面的适用性。项目页面:https://yanzhelyu.github.io/chord
近期强化学习技术提升了基于流匹配模型的人类偏好对齐方法。虽然随机采样能够探索去噪方向,但现有在多步去噪过程中进行优化的方法仍受限于稀疏且模糊的奖励信号。我们发现高熵步骤能实现更高效有效的探索,而低熵步骤则导致生成轨迹缺乏区分度。为此,我们提出E-GRPO(熵感知分组相对策略优化),通过提升随机微分方程采样步骤的熵值来改善此问题。由于多步随机性会导致随机微分方程积分过程中的奖励信号模糊,我们特别将连续的低熵步骤合并为单个高熵步骤进行SDE采样,其余步骤则采用ODE采样。基于此,我们进一步提出多步分组归一化优势函数,在共享同一合并SDE去噪步骤的样本组内计算相对优势。在不同奖励设置下的实验结果验证了本方法的有效性。
验证对于提升智能体性能至关重要:它既为强化学习提供奖励信号,又能通过测试时扩展(TTS)实现推理阶段的性能增益。尽管验证在软件工程(SWE)智能体场景中具有重要地位,现有方法却多依赖代码执行,而环境搭建的开销使得该方法难以规模化。虽然存在补丁分类器和启发式方法等可扩展替代方案,但这些方法缺乏代码库上下文支撑且可解释性较差。为此,我们提出智能体化评估准则方案:专家智能体通过交互式分析代码库生成基于上下文的评估清单,候选补丁无需执行测试即可依此获得评分。在SWE-Bench Verified的并行TTS评估中,Qwen3-Coder-30B-A3B模型采用该方案获得54.2%的得分,Qwen3-32B模型获得40.6%的得分,较对比组最强基线提升至少3.5个百分点。进一步分析表明,评估准则评分与真实测试结果高度一致,同时能标记出测试未能覆盖的问题。消融实验证实,智能体上下文收集机制对生成代码库专属的明确评判标准具有关键作用。这些结果表明,智能体化评估准则为SWE智能体提供了高效、可扩展且细粒度的验证信号。
分子动力学模拟在材料科学原子尺度行为研究中具有关键作用,但LAMMPS脚本编写仍属高度专业化且耗时的工作。尽管大语言模型在代码生成和领域问答中展现出潜力,但其在分子动力学场景中的应用受限于领域数据稀缺、尖端大模型部署成本高昂以及代码可执行率低等问题。基于我们此前开发的MDAgent,本文提出首个实现分子动力学领域知识问答与代码生成端到端能力的框架MDAgent2。我们构建了领域专用的数据生成流程,产出涵盖分子动力学知识、问答及代码生成的三类高质量数据集。基于这些数据集,采用持续预训练、监督微调与强化学习三阶段策略,训练出MD-Instruct和MD-Code两个领域适配模型。进一步提出MD-GRPO强化学习方法,通过模拟结果作为奖励信号并循环利用低奖励轨迹实现持续优化。同时开发了可部署的多智能体系统MDAgent2-RUNTIME,集成代码生成、执行、评估与自我修正功能。结合本文首次提出的LAMMPS代码生成与问答基准MD-EvalBench,我们的模型与系统在多项指标上超越多个强基线模型。本工作系统论证了大语言模型在工业仿真任务中的适应性与泛化能力,为AI for Science及工业级仿真的自动代码生成奠定了方法论基础。项目地址:https://github.com/FredericVAN/PKU_MDAgent2
可靠的流行病学推理需要综合研究证据,以推断人群层面的疾病负担、传播动态和干预效果。现有医学问答基准主要侧重临床知识或患者层面推理,但鲜有系统评估基于证据的流行病学推断能力。我们推出EpiQAL——首个跨疾病谱系的流行病学问答诊断基准,包含基于开放获取文献构建的三个子集:分别评估文本基础的事实记忆能力、结合文献证据与流行病学原理的多步推理能力,以及隐藏讨论部分后的结论重构能力。基准构建融合了专家设计的分类指导、多模型验证和基于检索的难度控制。在十个开源模型上的实验表明,当前大语言模型的流行病学推理能力有限,其中多步推理挑战最大。模型排名随子集任务发生变化,且参数量并非成功的关键预测因素。思维链提示对多步推理有助益,但在其他任务中效果参差不齐。EpiQAL为证据锚定、推断推理和结论重构提供了细粒度诊断信号。
随着大语言模型(LLMs)在安全关键型应用中的日益普及,确保其对抗恶意提示的鲁棒性变得至关重要。然而,现有的红队测试数据集存在风险分类不一致、领域覆盖有限以及评估方法过时等问题,阻碍了系统化的漏洞评估。为解决这些挑战,我们推出RedBench——一个整合了来自顶级会议和代码库的37个基准数据集的通用数据集,包含29,362个攻击性提示与拒绝提示样本。RedBench采用包含22个风险类别和19个领域的标准化分类体系,能够对大语言模型漏洞进行一致且全面的评估。我们针对现有数据集开展了详细分析,为现代大语言模型建立了性能基线,并开源了数据集与评估代码。本研究的贡献在于推动鲁棒性比较、促进未来研究,并为实际应用场景下安全可靠的大语言模型开发提供支持。代码地址:https://github.com/knoveleng/redeval
我们报告了一项案例研究:通过将六个大语言模型智能体映射至科研工作流程各阶段,进行了四次端到端自主生成机器学习研究论文的尝试。其中三次尝试在实施或评估阶段失败,有一次成功完成全流程,并被要求人工智能系统作为第一作者的实验性首创会议Agents4Science 2025接收,同时通过了人类与多智能体联合评审。基于这些尝试,我们记录了六类反复出现的失败模式:对训练数据默认设置的偏向性、执行压力下的实施偏移、长周期任务中的记忆与语境衰减、无视明显错误而宣告成功的过度兴奋、领域智能不足,以及实验设计中薄弱的科学品味。最后我们讨论了构建更稳健AI科学家系统的四项设计原则,分析了其对自主科学发现的影响,并公开了全部提示词、过程产物与输出结果(https://github.com/Lossfunk/ai-scientist-artefacts-v1)。
语言模型(LMs)通过原始文本数据集进行预训练,以逐词元的方式生成文本序列。尽管这种方法有助于学习世界知识和推理能力,但并未显式优化语言能力。为弥补这一不足,我们提出L2T预训练框架,将语言学习任务与标准的下一个词元预测相结合。受人类语言习得过程启发,L2T将原始文本转化为结构化输入-输出对,以提供显性语言刺激。在原始文本与L2T数据的混合集上预训练语言模型,不仅能提升语言能力基准测试的整体表现、加速语言习得进程,还能在通用推理任务中保持竞争优势。
指令驱动的多模态统一生成模型在图像编辑领域发展迅速,但其底层视觉推理能力仍存在局限,导致以推理为核心的编辑任务表现欠佳。虽然已有研究探索使用强化学习(RL)提升图像编辑质量,但面临三大挑战:(1)受限于去噪随机性的有限推理探索;(2)存在偏差的奖励融合机制;(3)基于视觉语言模型(VLM)的指令奖励不稳定。本研究提出ThinkRL-Edit——一个将视觉推理与图像合成解耦的推理中心化RL框架,将推理探索拓展至去噪过程之外。具体而言,我们在在线采样中引入基于思维链(CoT)的推理采样机制,通过在生成前设置规划与反思阶段,迫使模型在确定视觉输出前探索多种语义假设并验证其合理性。为避免加权聚合的失效问题,我们提出跨多奖励维度的无偏链式偏好分组策略。此外,采用二元检查清单替代区间式VLM评分,为复杂推理任务提供更精确、低方差且可解释的奖励。实验表明,本方法在以推理为核心的图像编辑任务上显著优于现有技术,能生成符合指令要求、视觉连贯且语义可靠的编辑结果。
人工评估是多语言自然语言处理领域的黄金标准,但在实践中常因现有工具设置复杂缓慢、工程和运维成本高昂而被自动指标替代。我们推出轻量级但功能全面的Pearmut平台,使端到端人工评估能像自动评估一样简便运行。该平台消除了常见的使用门槛,特别针对机器翻译等多语言任务提供评估支持,既实现了DA、ESA、MQM等标准评估协议,也可扩展支持新协议原型开发。其特色功能包括文档级上下文评估、绝对与对比评估、注意力校验、ESAAI预标注技术,以及静态和基于主动学习的分配策略。Pearmut使可靠的人工评估不再是偶发性工作,而成为模型开发与诊断中实用、常规的组成部分。
记忆增强生成(MAG)通过为大型语言模型引入外部记忆机制来支持长上下文推理,但现有方法主要依赖对单一记忆存储的语义相似度检索,混淆了时序、因果和实体信息。这种设计限制了查询意图与检索证据间的可解释性及对齐能力,导致推理准确度欠佳。本文提出MAGMA——一种多图代理记忆架构,将每个记忆项映射至正交的语义图、时序图、因果图和实体图。MAGMA将检索过程建模为基于策略的多图遍历,实现查询自适应的选择与结构化上下文构建。通过解耦记忆表征与检索逻辑,MAGMA提供了透明的推理路径和细粒度检索控制。在LoCoMo和LongMemEval基准上的实验表明,MAGMA在长程推理任务中持续优于最先进的代理记忆系统。
我们提出RGS-SLAM——一种基于高斯泼溅的鲁棒性SLAM框架,该框架采用免训练的对应关系-高斯初始化方法,取代了GS-SLAM中基于残差驱动的致密化阶段。与通过残差揭示缺失几何特征而逐步添加高斯元素的方式不同,RGS-SLAM通过对稠密多视角对应关系进行一次性三角测量(这些对应关系源自经过置信感知内点分类器优化的DINOv3描述符),在优化前生成分布均匀且具有结构感知的高斯种子。这种初始化方式稳定了早期建图过程,使收敛速度提升约20%,在纹理丰富和杂乱场景中实现更高的渲染保真度,同时保持与现有GS-SLAM管道的完全兼容。在TUM RGB-D和Replica数据集上的测试表明,相较于最先进的高斯泼溅与基于点的SLAM系统,RGS-SLAM在定位与重建精度方面达到相当或更优水平,并保持最高925帧/秒的实时建图性能。
现有的一维视觉分词器在自回归生成任务中大多沿袭语言模型的设计原则,这些方法直接构建于源自语言领域的Transformer先验之上,仅生成单层次潜在标记,并将视觉数据视为扁平化的序列标记流。然而,这种类语言的处理方式忽略了视觉的关键特性,尤其是长期以来对视觉模型收敛性和效率至关重要的层次化结构与残差网络设计。为重塑视觉本质,我们提出残差分词器(ResTok),这是一种通过构建图像标记与潜在标记的双重层次化残差的一维视觉分词器。通过逐级合并获得的层次化表征可实现每层的跨层级特征融合,显著提升表征能力;同时层级间的语义残差可避免信息重叠,产生更集中的潜在分布,从而更易于自回归建模。跨层级绑定由此自然涌现,无需任何显式约束。为加速生成过程,我们进一步提出层次化自回归生成器,通过一次性预测整层潜在标记而非严格逐标记生成,大幅减少采样步数。大量实验表明,在视觉分词中恢复层次化残差先验可显著提升自回归图像生成效果,在ImageNet-256数据集上仅用9次采样步数即达到2.34的gFID指标。代码已开源:https://github.com/Kwai-Kolors/ResTok。
我们提出Gen3R方法,通过衔接基础重建模型与视频扩散模型的强先验,实现场景级三维生成。该方法重构VGGT重建模型,通过在其标记上训练适配器来生成几何潜在表示,并对其进行正则化以对齐预训练视频扩散模型的外观潜在表示。通过联合生成这些解耦但对齐的潜在表示,Gen3R能同步生成RGB视频及对应的三维几何数据(包括相机位姿、深度图和全局点云)。实验表明,我们的方法在单图和多图条件的三维场景生成任务中达到了最先进水平。此外,本方法能通过利用生成先验提升重建鲁棒性,证明了重建模型与生成模型的紧密耦合具有相互增益的优势。