每日精选AI研究论文及翻译
稀疏自编码器(SAE)作为一种通过将神经网络激活分解为稀疏且人类可解释的特征集来解读神经网络的有力工具,近年来备受关注。最新研究提出了多种SAE变体,并成功将其扩展至前沿模型。尽管前景令人振奋,但下游任务中日益增多的负面结果对SAE是否真正提取了有意义特征提出了质疑。为直接探究这一问题,我们开展了两项互补性评估。在已知真实特征的合成实验环境中,我们发现SAE仅能还原9%的真实特征,而解释方差却达到71%,这表明即使重构效果出色,其核心任务仍存在失败。针对真实激活的评估,我们引入了三种基线方法,通过约束SAE特征方向或其激活模式为随机值进行对比。经过对多种SAE架构的大规模实验,结果显示我们的基线方法在可解释性(0.87对0.90)、稀疏探测(0.69对0.72)和因果编辑(0.73对0.72)指标上与完全训练的SAE表现相当。这些结果共同表明,当前状态的SAE尚不能可靠地分解模型的内部机制。
智能体技能是增强大语言模型智能体推理能力的程序化知识包。尽管应用广泛,但目前缺乏标准化方法来衡量其实际效用。我们推出SkillsBench基准测试,涵盖11个领域的86项任务,每项任务均配备精心设计的技能库和确定性验证器。每种任务在三种条件下进行评估:无技能辅助、使用预设技能、以及自主生成技能。通过对7种智能体模型配置的7,308条轨迹测试发现:预设技能使平均通过率提升16.2个百分点,但不同领域差异显著(软件工程领域仅提升4.5个百分点,医疗健康领域则提升51.9个百分点),84项任务中有16项出现负增长。自主生成技能未产生显著效益,表明模型无法可靠地创作出它们能有效利用的程序化知识。包含2-3个模块的聚焦式技能优于全面文档,配备技能的小模型可达到无技能辅助的大模型水平。
我们推出新一代基础模型GLM-5,旨在实现从氛围编程到智能体工程的范式跃迁。该模型在继承前代智能体、推理与编码(ARC)能力的基础上,采用分布式序列架构(DSA)显著降低训练与推理成本,同时保持长上下文保真度。为推进模型对齐与自主性,我们构建了新型异步强化学习架构,通过解耦生成与训练环节大幅提升后训练效率。此外,我们提出创新的异步智能体强化学习算法,进一步提升强化学习质量,使模型能更有效地从复杂长程交互中学习。通过这些创新,GLM-5在主流开放基准测试中达到最先进性能。尤为关键的是,GLM-5在真实世界编程任务中展现出前所未有的能力,在处理端到端软件工程挑战方面超越以往基线。代码、模型及更多信息请访问:https://github.com/zai-org/GLM-5。
随着大型语言模型智能体在网络环境中的日益普及,一个根本性问题随之产生:人工智能(AI)智能体社会是否会经历与人类社交系统相似的趋同动态?近期,Moltbook模拟出一个可信的未来场景——自主智能体参与到一个开放持续演化的在线社会中。我们首次对这一AI智能体社会进行了大规模系统性诊断。除静态观测外,我们引入了量化诊断框架来追踪AI智能体社会的动态演化,测量指标包括语义稳定性、词汇更替率、个体惯性、影响力持续性以及集体共识度。分析表明Moltbook系统处于动态平衡状态:虽然全局语义平均值快速稳定,但个体智能体仍保持高度多样性及持续的词汇更新,并未出现同质化。然而,智能体表现出强烈的个体惯性和对交互对象极低的适应性响应,阻碍了相互影响与共识形成。因此,影响力仅短暂存在且未形成持久超级节点,由于缺乏共享社会记忆,该社会未能发展出稳定的集体影响力锚点。这些发现证明,仅凭规模与交互密度不足以引发社会化进程,为即将到来的新一代AI智能体社会提供了可操作的设计与分析原则。
我们推出ResearchGym——一个用于评估AI智能体端到端科研能力的基准测试与执行环境。为实现这一目标,我们重新利用了来自ICML、ICLR和ACL的五篇口头报告与焦点论文。通过保留各论文代码库中的数据集、评估框架和基线实现,但隐去论文提出的核心方法,最终构建出五个容器化任务环境,共包含39项子任务。在每个环境中,智能体需要提出新假设、运行实验,并尝试在论文指标上超越人类建立的强基线。通过对基于GPT-5的智能体进行受控评估,我们观察到显著的能力-可靠性差距:在15次评估中,该智能体仅1次(6.7%)以11.5%的优势超越代码库提供的基线,平均仅完成26.5%的子任务。我们识别出重复出现的长期性失效模式,包括实验耐心不足、时间与资源管理不当、对弱假设过度自信、并行实验协调困难,以及上下文长度带来的硬性限制。然而在单次运行中,该智能体成功超越了ICML 2025焦点任务的解决方案,表明前沿智能体虽能偶尔达到顶尖水平,但表现极不稳定。我们还评估了Claude Code(Opus-4.5)和Codex(GPT-5.2)等专有智能体框架,它们同样表现出类似差距。ResearchGym为系统评估和分析自主智能体在闭环科研中的表现提供了基础设施。
统一模型能够在单一架构内同时处理多模态理解与生成任务,但其通常采用单次前向推理而缺乏对输出的迭代优化。许多多模态任务(尤其是涉及复杂空间组合、多对象交互或动态指令的场景)需要分解指令、验证中间结果并进行迭代修正。虽然测试时扩展技术已证明通过分配额外推理算力进行迭代式推理可显著提升语言模型性能,但将该范式拓展至统一多模态模型仍存在挑战。我们提出UniT框架——一种支持多模态思维链测试时扩展的方法,使统一模型能够进行多轮推理、验证与优化。UniT融合了智能体数据合成、统一模型训练与弹性测试时推理,可激发包括验证、子目标分解和内容记忆在内的认知行为。核心发现包括:(1)基于短推理轨迹训练的模型在测试时能泛化至更长推理链;(2)序列化思维链推理相比并行采样具有更优的可扩展性与计算效率;(3)生成与编辑轨迹训练能提升分布外视觉推理性能。这些成果确立了多模态测试时扩展作为推动统一模型生成与理解能力协同发展的有效范式。
文本嵌入模型广泛应用于语义相似性任务,包括信息检索、聚类和分类。通用模型通常通过单阶段或多阶段对比损失函数进行训练。我们提出了一种创新训练方案,将模型蒸馏技术与任务特定对比损失相结合,以生成紧凑的高性能嵌入模型。研究结果表明,相较于纯对比学习或蒸馏训练范式,该方法在训练小规模模型时更具优势。最终模型jina-embeddings-v5-text-small和jina-embeddings-v5-text-nano的基准测试分数超越或持平同类尺寸的顶尖模型。jina-embeddings-v5系列模型还支持多语言长文本(最高3.2万词元),生成的嵌入向量在截断和二进制量化下仍保持鲁棒性。模型权重已开源发布,有望推动嵌入模型研究的进一步发展。
柏拉图式表征假说认为,神经网络的表征正在趋同于现实的统一统计模型。我们发现,现有衡量表征相似度的指标受到网络规模的干扰:增加模型深度或宽度会系统性地抬高表征相似度评分。为修正这些影响,我们提出基于排列的零校准框架,可将任何表征相似度指标转化为具有统计保证的校准分数。通过我们的校准框架重新审视柏拉图式表征假说,发现了一个微妙图景:全局谱度量所报告的明显趋同现象在校准后基本消失,而局部邻域相似性(非局部距离)在不同模态间仍保持显著一致性。基于这些发现,我们提出亚里士多德式表征假说:神经网络表征正在趋同于共享的局部邻域关系。
Transformer模型的后训练压缩通常依赖于截断奇异值分解(SVD),但强制共享单一子空间即使在中等压缩率下也会导致精度下降。稀疏字典学习提供了更灵活的联合子空间表示,但现有方法常受限于字典与系数的迭代更新。我们提出COMPOT(面向Transformer的校准优化矩阵Procrustes正交化方法),这是一种无需训练的压缩框架,利用小型校准数据集估计稀疏权重分解。COMPOT采用正交字典,可实现字典的闭式Procrustes更新和系数的解析单步稀疏编码,从而消除迭代优化。针对全局压缩预算下的异构层敏感性问题,COMPOT进一步引入一次性动态分配策略,自适应地重新分配逐层压缩率。跨多种架构和任务的广泛实验表明,COMPOT在强低秩与稀疏基线方法上始终提供更优的质量-压缩权衡,同时与后训练量化技术完全兼容以实现极致压缩。代码已开源https://github.com/mts-ai/COMPOT。
当前多模态模型研究面临一个关键挑战:提升生成能力往往以牺牲理解为代价,反之亦然。我们通过分析发现,这一权衡关系的根本原因可能在于生成与理解之间的潜在冲突,这种冲突在模型内部形成了竞争动态。为此,我们提出"推理-反思-优化"(R3)框架。该创新算法将单步生成任务重构为"生成-理解-再生成"的多步过程,通过显式利用模型在生成过程中的理解能力,成功缓解了优化困境,不仅获得了更强的生成效果,还提升了与生成过程相关的理解能力。这一研究为设计新一代统一多模态模型提供了重要启示。代码已开源:https://github.com/sen-ye/R3。
训练大型语言模型(LLMs)几乎完全依赖于采用日益复杂预处理器的稠密自适应优化器。我们通过证明随机掩码参数更新可高度有效来挑战这一现状:掩码版RMSProp持续优于当前最先进的优化器。分析表明,随机掩码会引发曲率相关的几何正则化,从而平滑优化轨迹。基于这一发现,我们提出动量对齐梯度掩码法(Magma),通过动量-梯度对齐机制调节掩码更新。大量LLM预训练实验表明,Magma可作为自适应优化器的简易替代方案,在保持计算开销可忽略的同时实现稳定性能提升。值得注意的是,在10亿参数模型规模上,Magma相比Adam和Muon分别将困惑度降低超过19%和9%。
大型语言模型(LLMs)正在改变编程范式,即所谓的氛围编程,但生成算法复杂且健壮的代码仍是关键挑战。激发LLMs的深度推理能力对突破此障碍至关重要。强化微调(RFT)已成为应对这一需求的有效策略。然而现有方法大多忽视了测试用例固有的异质难度与粒度差异,导致奖励信号分布失衡,进而引发训练过程中的梯度更新偏差。为此,我们提出测试驱动与能力自适应课程强化微调框架(TAROT)。该框架系统性地为每个问题构建四层级测试套件(基础、中级、复杂、边缘),为课程设计与评估提供可控的难度梯度。关键创新在于,TAROT将课程进度与原始奖励分数解耦,通过能力条件化评估从课程策略组合中进行原则性选择,而非依赖偶然的测试用例难度组合。这种设计实现了稳定优化与更高效的能力习得。大量实验表明,代码生成中RFT的最佳课程策略与模型内在能力密切相关:能力较弱的模型通过由易到难的渐进课程获益更大,而能力更强的模型则在难度优先的课程中表现更优。TAROT提供了一种可复现的方法,能根据模型能力自适应定制课程设计,从而持续提升生成代码的功能正确性与健壮性。所有代码与数据已开源(https://github.com/deep-diver/TAROT),以促进可复现性并推动社区研究。
语言模型正日益用于推理其未经训练的内容,如新文档、演进知识和用户特定数据。检索增强生成(RAG)是常用方法,其将原始文档外部存储为文本块,在推理时仅检索相关子集供大语言模型进行推理。但这种方式会导致测试阶段计算效率低下(模型需重复处理相同文档),且分块检索可能引入无关上下文,增加无依据生成的风险。我们提出一种类人类的非参数持续学习框架:基础模型保持固定,通过将每次新经验整合至外部语义记忆状态来实现持续积累与自我强化。 我们提出的Panini系统通过生成式语义工作区(GSW)实现该框架——这是一种以实体和事件为核心的问答对网络,足以让大语言模型重构经历的情境,并通过基于推理的推断链挖掘潜在知识。面对查询时,Panini仅遍历持续更新的GSW(而非原始文档或文本块),并检索最可能的推断链。在六个问答基准测试中,Panini实现了最高平均性能,较其他竞争基线提升5%-7%,同时使用的答案上下文标记数减少2-30倍,支持全开源流程,并在精心设计的不可回答问题集上降低了无依据回答的比例。 结果表明,通过GSW框架在写入阶段对经验进行高效精准的结构化处理,能在读取阶段同时实现效率与可靠性的提升。代码已开源:https://github.com/roychowdhuryresearch/gsw-memory。
强化学习(RL)在大语言模型推理方面取得显著进展,但现有RL微调方法严重依赖启发式技术(如熵正则化和权重调整)来维持稳定性。实践中,这些方法常出现后期性能崩溃,导致推理质量下降与训练不稳定。我们推导出RL中词元级策略梯度的大小与词元概率及局部策略熵呈负相关。基于此,我们发现训练不稳定性由约0.01%的极少数词元驱动,这类词元被定义为伪相关词元。当此类词元出现在正确响应中时,它们对推理结果贡献微弱却继承完整的序列级奖励,导致梯度更新异常放大。受此启发,我们提出面向大规模模型优化的伪相关词元感知策略优化(STAPO),通过选择性屏蔽此类更新并对有效词元的损失进行重归一化处理。在基于Qwen 1.7B、8B和14B基础模型的六项数学推理基准测试中,STAPO始终展现更优的熵稳定性,相较GRPO、20-Entropy和JustRL方法平均性能提升达7.13%。
网络上充斥着大量原本为人类消费而创建的图像,如今这些图像正日益被基于视觉语言模型(VLM)的智能体所解析。这些智能体大规模地做出视觉决策,决定点击、推荐或购买哪些内容。然而,我们对其视觉偏好结构知之甚少。我们提出一个研究框架:将VLM置于受控的基于图像的选择任务中,并系统性地扰动其输入。其核心思想是将智能体的决策函数视为潜在视觉效用,可通过显示性偏好(即对经过系统性编辑的图像进行选择)来推断。从商品图片等常见图像出发,我们提出视觉提示优化方法,通过适配文本优化技术,利用图像生成模型迭代式地提出并应用视觉合理的修改(如构图、光线或背景)。随后评估哪些编辑能提升被选概率。通过对前沿VLM的大规模实验,我们证明优化后的编辑能在直接比较中显著改变选择概率。我们还开发了自动可解释性管道来解释这些偏好,识别驱动选择行为的一致视觉主题。我们认为该方法能有效揭示视觉漏洞和安全隐患——这些隐患若在自然场景中被动发现可能造成更大风险,从而为基于图像的AI智能体提供更主动的审计与治理方案。
具备显式相机控制能力的预测性世界模型是交互式人工智能的基础。尽管发展迅速,当前系统仍缺乏空间持久性:它们无法在长轨迹中保持稳定的场景结构,当相机重新访问已观测区域时频繁出现细节幻觉。我们发现这种几何漂移源于对屏幕空间位置编码的依赖,这与三维一致性所需的投影几何相冲突。本文提出ViewRope——一种几何感知编码技术,将相机光线方向直接注入视频Transformer的自注意力层。通过采用相对射线几何而非像素局部性来参数化注意力机制,ViewRope为跨时间间隙检索三维一致内容提供了模型原生的归纳偏置。我们进一步提出几何感知帧稀疏注意力机制,利用这些几何线索选择性地关注相关历史帧,在保持记忆一致性的同时提升效率。此外还推出ViewBench诊断套件,用于评估闭环保真度与几何漂移。实验结果表明,ViewRope在显著提升长期一致性的同时有效降低了计算成本。
尽管大语言模型展现出专家级的医学知识,但其开放式输出与临床医生细粒度偏好的对齐仍具挑战。现有方法常依赖粗粒度目标或基于专业指南关联性较弱的不可靠自动评估器。我们提出一个两阶段框架以解决这一差距:首先推出HealthRubrics数据集,包含7,034例经医师验证的偏好样本,临床医生通过优化LLM起草的评估细则以满足严格医疗标准;其次将这些细则提炼为HealthPrinciples——一套按临床维度组织的119条可复用临床原则,实现超越人工标注的可扩展监督。该框架将HealthPrinciples应用于(1)通过为未标注查询合成评估细则进行离线对齐,(2)作为推理时引导自我修正的工具。采用本框架训练的30B参数模型(推理时仅激活3B参数)在HealthBench-Hard基准上达到33.4%的得分,优于包括Deepseek-R1和o3在内的更大模型,为临床对齐建立了资源高效的基线。
在基础模型部署实践中,从业者日益需要规范化的缩放定律:在给定预训练计算预算的前提下,结合当代后训练技术,下游任务可达到的准确率是多少?该映射关系随着技术发展保持怎样的稳定性?通过对5千个观测样本和2千个新采样模型性能数据进行大规模观测评估,我们采用单调饱和S型参数化的平滑分位数回归方法,以预训练浮点运算次数的对数为自变量,估算出能力边界(即基准测试得分的条件高分位数)。通过在前代模型上拟合参数并在新一代模型上验证,我们证实了该方法的时间可靠性。跨任务分析显示,除数学推理任务的能力边界随时间持续提升外,其他任务的估计边界基本保持稳定。我们进一步扩展该方法,分析任务相关的饱和现象,并探究数学推理任务中数据污染相关的变化。最后提出一种高效算法,仅需约20%的评估预算即可重建近乎完整的数据边界。本研究同步发布最新模型性能评估数据集Proteus 2k,并建立了一套实用方法论:既可将计算预算转化为可靠的性能预期,又能监测能力边界随时间推移发生的变化。
动作分块技术使视觉语言动作模型能够实时运行,但朴素的分块执行常在边界处出现不连续性。实时分块方法虽能缓解该问题,但由于其外置于策略模型,会导致虚假的多模态切换及非本质平滑的运动轨迹。我们提出Legato——一种面向基于流的动作分块VLA策略的训练时延续方法。该方法通过从已知动作与噪声按调度形混合的初始状态开始去噪,使模型接触部分动作信息。同时,Legato重构学习到的流动力学,确保在逐步指导下的训练与推理过程中保持去噪一致性。通过训练时采用随机化调度条件,Legato可适应不同的推理延迟并实现可控平滑度。实验表明,Legato能生成更平滑的运动轨迹,减少执行时的虚假多模态切换,从而降低犹豫时间并缩短任务完成时长。大量真实场景实验证明,在五项操作任务中Legato均稳定优于实时分块方法,轨迹平滑度与任务完成时间均提升约10%。
世界模型需要强大的关系理解能力来支撑预测、推理与控制。虽然以对象为中心的表征提供了有效的抽象方式,但尚不足以捕捉交互依赖的动态特性。为此,我们提出C-JEPA模型——一种简单灵活、以对象为中心的世界模型,它将基于图像块的掩码联合嵌入预测扩展至对象中心表征。通过实施对象级掩码机制(要求通过其他对象推断目标对象状态),C-JEPA在潜在空间产生具有类反事实效果的干预,杜绝捷径解决方案,使交互推理成为必要环节。实验表明,C-JEPA在视觉问答任务中持续提升性能,其中反事实推理能力较未采用对象级掩码的相同架构绝对提升约20%。在智能体控制任务中,C-JEPA仅需基于图像块的世界模型1%的潜在输入特征量,即可实现相当的性能,且规划效率显著提升。最后,我们通过形式化分析证明对象级掩码通过潜在干预机制引入了因果归纳偏置。代码已开源:https://github.com/galilai-group/cjepa。
高效处理长上下文仍是当代大语言模型面临的关键挑战,尤其在资源受限环境中。软压缩架构通过用少量习得的压缩标记替代长标记序列,有望扩展有效上下文长度。然而压缩的极限——即压缩何时开始消除任务相关内容——仍未得到充分探索。本文定义了标记溢出现象,即压缩表征不再包含足够信息以响应查询的状态,并提出一种表征与检测该现象的方法。在xRAG软压缩场景中,我们发现与查询无关的饱和统计量能可靠区分压缩与未压缩标记表征,为识别压缩标记提供了实用工具,但其溢出检测能力有限。基于查询和上下文xRAG表征的轻量级探测分类器在HotpotQA、SQuADv2和TriviaQA数据集上平均达到0.72 AUC-ROC的溢出检测效果,表明引入查询信息可提升检测性能。这些成果实现了从查询无关诊断到查询感知检测的进阶,为建立低成本的LLM前置门控机制以规避压缩错误提供了可能。
由大语言模型驱动的多智能体系统虽已实现高级协同推理,但仍受限于离散文本通信的低效性——这种通信方式不仅带来显著运行时开销,还会导致信息量化损失。尽管隐状态传输提供了高带宽替代方案,但现有方法要么假设同构的收发架构,要么依赖配对式学习的翻译器,难以在具有不兼容特征流形的异构模型家族间实现可扩展性与模块化。本研究提出视觉虫洞框架,通过重构视觉语言模型的视觉接口,实现与模型无关的无文本通信。我们引入通用视觉编解码器,将异构推理轨迹映射到共享连续隐空间,并直接注入接收方的视觉通路,从而将视觉编码器转化为智能体间心灵感应的通用端口。该框架采用星型拓扑将两两对齐复杂度从O(N²)降至O(N),并利用无标签的师生蒸馏目标,使高速视觉通道与文本通路的稳健推理模式相对齐。跨异构模型家族(如Qwen-VL、Gemma)的大规模实验表明,在受控对比中视觉虫洞能降低端到端实际运行时间,同时保持与标准文本多智能体系统相当的推理保真度。代码已开源:https://github.com/xz-liu/heterogeneous-latent-mas
Clawdbot是一种支持自托管、具备工具调用能力的个人AI智能体,其广泛的动作空间覆盖本地执行与网络介导的工作流,这在模糊性和对抗性引导情境下引发了更高的安全风险。我们针对六大风险维度对Clawdbot开展了轨迹中心化评估:测试集采样自现有智能体安全基准(含ATBench与LPS-Bench)并针对Clawdbot工具接口进行轻量化适配,同时补充了手工设计的定制场景。通过记录完整交互轨迹(消息、动作、工具调用参数/输出),我们结合自动化轨迹评估器(AgentDoG-Qwen3-4B)与人工审核进行安全评估。在34个标准测试案例中,其安全表现呈现非均衡特征:可靠性导向任务表现总体稳定,而多数失效案例出现在意图未明确界定、目标开放或看似无害的越狱提示场景中,此时微小误判可能升级为高影响工具操作。我们通过典型案例研究补充整体结果,归纳这些案例的共性特征,剖析了Clawdbot在实际应用中易触发的安全漏洞与典型失效模式。
人类终极考试(HLE)已成为评估前沿大语言模型在复杂多领域问题上表现的重要基准。然而社区分析指出,HLE中存在相当数量的噪声题目,可能扭曲评估结果与模型间比较。为应对此挑战,我们推出HLE-Verified——一个经过验证修订的HLE版本,具备透明验证流程与细粒度错误分类体系。该基准采用两阶段验证修复工作流构建:第一阶段通过领域专家评审与模型交叉核查,对每道题目的问题表述及参考答案进行二元验证,最终获得641道验证题目;第二阶段在严格保持原评估意图的前提下,通过双盲专家修复、模型辅助审计与终审裁定,将可修复的缺陷题目修订为1170道认证题目。其余689道题目则作为标注不确定集发布,明确标注不确定性来源与专业领域标签以供后续优化。我们在HLE与HLE-Verified上评估了七个前沿语言模型,发现在HLE-Verified上模型平均绝对准确率提升7-10个百分点。这种提升在原始题目表述或参考答案存在错误的题目上尤为显著,增幅达30-40个百分点。分析进一步表明,模型置信度与题目表述或参考答案的错误存在强关联,印证了修订的有效性。总体而言,HLE-Verified通过降低标注噪声,实现了对模型能力更精准的测量。数据详见:https://github.com/SKYLENAGE-AI/HLE-Verified
大型语言模型在处理需要最新信息和多步推理的知识密集型问题时仍面临挑战。通过融合非结构化文本与结构化知识图谱等混合外部知识来增强模型能力,为成本高昂的持续预训练提供了有前景的替代方案。因此,对其检索与推理能力进行可靠评估变得至关重要。然而现有许多基准测试与模型预训练数据的重叠度日益增加,这意味着答案或支撑知识可能已编码于模型参数中,难以区分真正的检索推理与参数化记忆。我们提出HybridRAG-Bench基准框架,专门评估混合知识上的检索密集型多跳推理能力。该框架基于arXiv最新科学文献自动构建非结构化文本与结构化知识图谱的耦合表示,并生成基于显式推理路径的知识密集型问答对。该框架支持灵活的领域和时间范围选择,可随着模型与知识的演进实现防数据污染的可定制化评估。在人工智能、政策治理和生物信息学三个领域的实验表明,HybridRAG-Bench能有效检验真正的检索推理能力而非参数化记忆,为评估混合知识增强推理系统提供了标准化测试平台。相关代码与数据已在github.com/junhongmit/HybridRAG-Bench发布。