每日精选AI研究论文及翻译
近年来的大语言模型(LLMs)在代码理解与生成方面展现出强大能力,涵盖从竞赛编程到仓库级软件工程等场景。在新兴的智能体系统中,代码不再仅仅是目标输出,它逐渐成为智能体进行推理、行动、环境建模以及基于执行的验证的操作基底。我们通过智能体框架(agent harness)的视角来框定这一转变,并提出"代码即智能体框架"(code as agent harness)这一统一观点,将代码定位为智能体基础设施的基础。为了系统性地研究这一视角,我们围绕三个相互关联的层次组织本综述。首先,研究框架接口(harness interface),即代码如何连接智能体的推理、行动与环境建模。其次,考察框架机制(harness mechanisms):用于长周期执行的规划、记忆与工具使用,以及使框架可靠且自适应的反馈驱动控制与优化。第三,讨论如何将框架从单智能体系统扩展到多智能体场景,在此类场景中,共享的代码工件支持多智能体的协调、审查与验证。跨这些层次,我们总结了以代码为智能体框架的代表性方法与实际应用,涵盖编码助手、GUI/OS自动化、具身智能体、科学发现、个性化与推荐、DevOps以及企业工作流。我们进一步概述了框架工程面临的开放挑战,包括超越最终任务成功的评估、不完整反馈下的验证、无回归的框架改进、多智能体间一致共享状态、安全关键行动中的人类监督,以及向多模态环境的扩展。通过将代码定位为智能体AI的框架,本综述为构建可执行、可验证且具有状态性的AI智能体系统提供了统一路线图。
长时程LLM智能体留下的轨迹可作为可复用的经验,但原始轨迹噪声大且难以管理。我们将代理技能视为一种经验模式,它整合了可执行脚本与非可执行的程序性指导。然而,开放的技能生态系统中存在冗余、参差不齐且对环境敏感的工件,不加区分地更新可能污染未来的上下文。我们提出SkillsVote——一个覆盖从收集、推荐到演进的代理技能全生命周期治理框架。SkillsVote对百万级规模的开源语料库进行环境需求、质量和可验证性分析,进而为可验证技能合成任务。执行前,SkillsVote通过结构化技能库执行智能体式库搜索,以提供指导性技能上下文。执行后,它将轨迹分解为技能关联的子任务,将结果归因于技能使用、智能体探索、环境及结果信号,仅允许成功且可复现的发现进入经证据验证的更新流程。在评估中,离线演进使GPT-5.2在Terminal-Bench 2.0上提升高达7.9个百分点,在线演进使SWE-Bench Pro提升高达2.6个百分点。总体而言,当系统控制暴露、归因与保存时,受治理的外部技能库可在不更新模型的情况下改进冻结的智能体。
我们提出 LongLive-2.0,这是一个基于 NVFP4 的并行基础设施,覆盖长视频生成的完整训练和推理流程,旨在解决速度和内存瓶颈。在训练方面,我们引入了序列并行自回归(AR)训练,并实例化为 Balanced SP。该方法通过在每个 rank 上配对干净历史块和带噪声目标块,将高效的教师强制布局与 SP 执行协同设计,实现了自然的教师强制掩码与 SP 感知的分块 VAE 编码。结合 NVFP4 精度,它降低了 GPU 内存开销,并加速了训练期间的 GEMM 计算,其占比随着视频长度增加而上升。此外,我们展示了高质量的基础设施和数据集能够实现异常简洁的训练流程。与现有依赖 ODE 初始化和后续分布匹配蒸馏(DMD)的 Self-Forcing 系列方法不同,LongLive-2.0 直接将扩散模型微调为长视频、多镜头、交互式自回归(AR)扩散模型。它还可以进一步转换为实时生成(4 到 2 步去噪),配备独立的 LoRA 权重。在 Blackwell GPU 上进行推理时,我们支持 W4A4 NVFP4 推理,将 KV 缓存量化为 NVFP4 以节省内存,并通过异步流式 VAE 解码提升端到端吞吐量。在非 Blackwell GPU 架构上,我们部署 SP 推理以匹配 Blackwell GPU 的速度,同时量化的 KV 缓存可以降低 SP 的 GPU 间通信。实验显示训练速度提升高达 2.15 倍,推理速度提升 1.84 倍。LongLive-2.0-5B 实现了 45.7 FPS 的推理速度,同时在基准测试中表现强劲。据我们所知,LongLive-2.0 是首个用于长视频生成的 NVFP4 训练和推理系统。
我们提出了Lance——一个轻量级原生统一模型,支持图像和视频的多模态理解、生成与编辑。不同于依赖模型规模扩展或文本-图像主导的设计,Lance探索了一种通过协同多任务训练实现统一多模态建模的实用范式。该模型基于两大核心原则:统一上下文建模与解耦能力路径。具体而言,Lance从零开始训练,在共享的交错多模态序列上采用双流混合专家架构,实现了联合上下文学习的同时,将理解与生成的路径解耦。我们还引入了模态感知的旋转位置编码,以减轻异构视觉标记间的干扰并提升跨任务对齐能力。训练过程中,Lance采用分阶段多任务训练范式,结合面向能力的优化目标与自适应数据调度,同时强化语义理解与视觉生成性能。实验结果表明,Lance在图像和视频生成任务上显著优于现有的开源统一模型,同时保持了强大的多模态理解能力。项目主页:https://lance-project.github.io。
AI辅助研究正迈过一道门槛:如今,全自动化系统能以低至15美元的成本生成研究论文,而长周期智能体可在极少人工干预下执行实验、起草稿件并模拟评审。然而,这一生产力前沿暴露了更深层的诚信问题:在科研压力下,即使是前沿大语言模型仍会编造结果、遗漏隐藏错误,且难以可靠判断创新性。基于截至2026年4月的发展研究,我们提出对AI在完整研究生命周期中的端到端分析,按四个认知阶段组织:创造(想法生成、文献综述、编码与实验、表格与图表)、写作(论文撰写)、验证(同行评审、反驳与修改)以及传播(海报、幻灯片、视频、社交媒体、项目页面与交互智能体)。我们发现可靠辅助与不可靠自主之间存在尖锐的、阶段依赖性界限:AI在结构化、基于检索及工具辅助的任务中表现出色,但在真正新颖的想法、研究级实验及科学判断方面仍显脆弱。生成的想法在实施后常会退化,研究代码远落后于模式匹配基准,端到端自主系统尚未持续达到主要会议录用的标准。我们进一步表明,更高的自动化可能掩盖而非消除失败模式,因此以人为治理的协作成为最可信的部署范式。最后,我们提供结构化的分类体系、基准套件与工具清单、跨阶段设计原则,以及面向实践者的操作指南,相关资源维护于我们的项目页面。
面向真实医疗运营的端到端自动化,强调了当前基准测试中未充分体现的三项能力:政策密度——决策必须基于庞大的医疗、保险及操作规则库;多角色组合——单个任务要求代理扮演多个角色并进行交接;多边互动——中间工作流步骤需通过多轮对话完成,如同行评审和患者外联。为此,我们引入了χ-Bench,一个涵盖三大领域的长期医疗工作流基准测试:医疗服务提供方预授权、支付方利用率管理以及患者照护管理。每个任务将一份临床案例交给代理,在由20个医疗应用(通过87个MCP工具暴露)组成的高保真模拟器中,通过工具调用和撰写角色文书,引导代理完成任务至终止状态,并依据一份包含1290多条文档的管理式医疗运营手册技能进行指导。在30种代理框架/模型配置下,最佳代理仅能解决28.0%的任务,且没有代理在严格通过率³下达到20%,而在单次会话中执行所有任务的表现则骤降至3.8%。这些结果提出了一个假设:在其他政策密集、角色组合、不可逆的企业领域中,类似的差距很可能会显现。
设计和生成逼真且功能完整的3D室内房间对于室内设计、虚拟现实、游戏以及具身智能等广泛的应用领域至关重要。尽管近期基于多模态大语言模型(MLLM)的方法在从文本描述或参考图像合成3D房间方面展现出巨大潜力,但基于文本的方法难以捕捉精确的空间信息,而现有的图像条件代理在从俯视图生成整体房间时,往往存在不稳定性及无限循环的问题。为解决这些局限性,我们提出了Code-as-Room,这是一个配备结构化执行机制的MLLM智能代理框架,利用Blender代码表示3D房间。给定一张俯视房间图像,该框架会解析参考图像以提取场景元素及其空间关系,并通过一个原则化的多阶段管道,合成包含几何、材质和光照的可执行Blender代码。在整个过程中,我们维护了一个跨阶段记忆模块,以缓解现有基于代理的框架中固有的上下文遗忘问题。此外,我们还引入了一个专门针对基于代码的3D房间合成的基准测试,涵盖了多种评估协议。基于该基准测试,我们与现有基于代理的方法进行了全面比较,从而验证了我们所提出的执行机制的有效性。
将流式自回归(AR)视频生成器与人类偏好对齐具有挑战性。现有的强化学习方法主要依赖基于噪声的探索和基于SDE的替代策略,但这些方法与蒸馏AR模型确定性的ODE动力学不匹配,且倾向于扰动低级外观而非高级语义情节发展——而后者对于长程连贯性至关重要。为解决这些局限,我们提出KVPO,一种面向ODE的在线群体相对策略优化(GRPO)框架,用于对齐流式视频生成器。在多样性探索方面,KVPO引入因果语义探索范式,将变异源从随机噪声迁移至历史KV缓存。通过随机路由历史KV条目,它构建出严格位于数据流形上的语义多样生成分支。在策略建模方面,KVPO提出基于轨迹速度能量(TVE)的速度场替代策略,该策略在流匹配速度空间中量化分支似然,并产生与原生ODE公式完全一致的奖励加权对比目标。在多个蒸馏AR视频生成器上的实验表明,KVPO在单提示短视频和多提示长视频场景下,均在视觉质量、运动质量以及文本-视频对齐方面取得了一致性提升。
近年来,形式定理证明的进展得益于大规模证明生成和验证器感知训练,但智能体推理很少融入证明器的训练过程,仅出现于推理阶段。我们提出 OProver——一个面向 Lean 4 的智能体形式定理证明统一框架,在该框架中,失败的证明尝试会通过检索编译器验证的证明和 Lean 编译器反馈进行迭代修正。OProver 通过持续预训练及迭代后训练进行优化:每次迭代运行智能体推理,将新验证的证明索引至 OProofs 与检索记忆库,利用修复轨迹作为监督微调数据,并使用未解决的困难案例进行强化学习。OProofs 基于公开的 Lean 资源、大规模证明合成及智能体推理轨迹构建,包含 177 万条 Lean 语句、686 万个编译器验证的证明,以及序列化的轨迹(含检索上下文、失败尝试、反馈与修复)。在五个基准测试中,OProver-32B 在 MiniF2F(93.3%)、ProverBench(58.2%)和 PutnamBench(11.3%)上取得最佳 Pass@32 成绩,在 MathOlympiad(22.8%)和 ProofNet(33.2%)上排名第二,其顶级排名数量超过所有此前开源的整段证明器。
混合专家模型(MoE)通过稀疏专家激活高效扩展语言模型,其动态变体进一步根据输入调整激活的专家数量以减少计算量。现有动态MoE方法通常依赖从头预训练或特定任务适配,而对完全训练好的MoE模型进行实用转换的研究尚不充分。实现这种适配可直接缓解推理成本,因为简单token可在服务时绕过不必要的专家。本文提出零专家自蒸馏适应(ZEDA),这是一种低成本框架,能将训练后的静态MoE模型转换为高效的动态MoE。为稳定这种架构转换,ZEDA在每个MoE层注入无参数的零输出专家,并通过两阶段自蒸馏对增强后的模型进行适配——利用原始MoE作为冻结教师模型,并应用组级平衡损失。在涵盖数学、代码和指令遵循的11个基准测试上,对Qwen3-30B-A3B和GLM-4.7-Flash进行实验,ZEDA在精度损失可忽略的情况下消除了超过50%的专家FLOPs。其在两个模型上分别比最强的动态MoE基线高出6.1和4.0个点,并实现约1.20倍的端到端推理加速。
大型视觉语言模型(LVLMs)在视频理解领域取得了显著进展,但在需要精确实例级时空定位的任务中仍面临重大挑战。现有方法主要依赖文本提示进行人机交互,但这些提示难以提供精确的空间和时间参考,导致用户体验不佳。此外,当前方法通常将视觉感知与语言推理解耦,使推理以语言而非视觉内容为中心,限制了模型主动感知细粒度视觉证据的能力。为解决这些问题,我们提出VideoSeeker——一种通过视觉提示实现实例级视频理解的新范式。VideoSeeker将智能体推理与实例级视频理解任务无缝融合,使模型能够按需主动感知并检索相关视频片段。我们构建了四阶段全自动数据合成流水线,高效生成大规模、高质量的实例级视频数据。通过冷启动监督和强化学习训练,将工具调用与主动感知能力内化到模型中,打造出强大的视频理解模型。实验表明,我们的模型在实例级视频理解任务上较基线平均提升+13.7%,超越了GPT-4o和Gemini-2.5-Pro等强大的闭源模型,同时在通用视频理解基准上表现出有效的迁移能力。相关数据集和代码将公开发布。
视频大语言模型(Video LLMs)在扩展至长视频理解时面临的核心挑战,在于如何应对视觉标记上下文长度的爆炸式增长。现有策略主要聚焦于“事后”标记缩减——即在特征提取后减少视觉标记数量,以降低大语言模型的计算开销。尽管这些方法有效减少了视觉标记数量,但我们观察到,主要的延迟瓶颈已从大语言模型转移到了视觉编码器对每一帧进行的高成本处理上。为解决这一问题,我们提出了LiteFrame——一个强大且高效的视频编码器主干,专为视频大语言模型设计。为训练LiteFrame,我们引入了压缩标记蒸馏(CTD),一种新颖的训练框架,它指导一个紧凑的学生视觉编码器直接预测由大型教师视觉模型生成的信息密集、时空压缩的表示,从而有效规避冗余计算。当与进一步的语言模型适配(LMA)结合时,该方法带来了新的延迟-准确率帕累托前沿——与InternVL3-8B相比,LiteFrame在端到端延迟降低35%的同时,处理帧数增加8倍,并在多个基准测试上提升了平均视频理解准确率。我们的结果表明,在固定计算预算下,这为解锁更长时间视频理解开辟了一条新路径。
大型推理模型(LRMs)通过生成长思维链(CoT)取得了强大的性能,但往往会出现过度思考——即使在解决方案已经稳定后仍继续推理,从而浪费了令牌并增加了延迟。现有的推理时早期退出方法主要依赖答案级信号(如置信度或试答案一致性)来决定何时停止。然而,这些信号主要反映答案的就绪状态而非推理收敛:它们可能在模型完成探索或自我纠正之前触发,导致过早退出,从而降低最终答案的准确性,并使保留的推理链在语义上不完整。我们发现推理级的语义冗余可作为语义保持型早期退出的互补信号:当连续步骤不再增加新的进展,而是重复既有的结论时,推理轨迹很可能已经收敛。基于这一洞察,我们提出了PUMA,一个即插即用框架,将轻量级冗余检测器与答案级验证相结合。检测器标记语义冗余的候选退出点,而验证则确认停止是否安全,从而使PUMA能够移除冗余的延续部分,同时保留答案准确性和连贯的推理前缀。在五个LRM和五个具有挑战性的推理基准测试上,PUMA在保持准确率和保留CoT质量的前提下,实现了平均26.2%的令牌减少。在代码生成、零样本视觉-语言推理以及学习停止策略内化上的额外实验进一步表明,推理级冗余是一种稳健、可迁移且可学习的信号,可用于高效推理。我们的代码可在 https://github.com/giovanni-vaccarino/PUMA 获取。
激活值的动态范围是低比特量化、激活缩放以及大语言模型稳定推理的一阶约束。先前的研究描述了2024年前LLaMA风格模型中的异常特征与巨大激活值,而下游的激活量化堆栈沿用这一认知,未在LLaMA后时代开源模型大爆发背景下重新审视。我们提出面向部署的问题:现代开源大语言模型的激活值最大可达多大?这一规模在不同模型家族、代际及训练阶段间如何变化?在统一流程下(5000样本多领域语料库、家族专属分词、嵌入层、隐藏状态、注意力机制、MLP/MoE、SwiGLU门控及最终归一化层使用相同钩子),我们对8个开源家族的27个检查点(涵盖密集、MoE、视觉-语言、中间训练及指令微调变体)测量全局与逐层最大值。我们发现:(i)在相似参数量下,全局最大值跨越近四个数量级,Qwen3.5和MoE检查点落在10^2到10^3范围,而Gemma3-27B-it达到约7×10^5;(ii)跨家族与跨代比较打破了简单的单调缩放规律;(iii)MoE检查点的峰值比同规模密集模型低14.0到23.4倍,而残差流在22/24个检查点中承载全局最大值。轻量级INT-8正确性检验表明,测得的极大值与低比特重建误差通过激活尺度选择共同变化。我们得出结论:最大激活幅度是一个与家族、架构及训练阶段相关的模型属性,而非参数量的简单副产品——在低比特部署前,应将其作为量化指标,与任何开源权重一同测量并发布。代码公开于:https://github.com/clx1415926/Max_act_llm。
将所有可能的扰动都涵盖在训练数据集中是不可行的。这引发了一个关键问题:当面对未见过的真实世界视觉扰动,尤其是在不完美的视觉条件下,视觉-语言-动作(VLA)模型的鲁棒性如何?在本研究中,我们基于当前最先进的VLA模型开展系统性研究,揭示了当引入训练数据中不存在的视觉扰动时,模型性能会显著下降。针对这一问题,我们提出了一种基于信息理论的轻量级适配器模块——信息瓶颈适配器(IB-Adapter),它能选择性地过滤视觉输入中的潜在噪声。无需额外数据或增强策略,IB-Adapter在基线基础上平均提升30%,且仅增加不到1000万参数,展现出显著的效率与有效性。此外,即使采用小14倍的骨干网络(5亿参数)且未在Open X-Embodiment数据集上进行预训练,我们的模型StableVLA也能达到与70亿参数级别的先进VLA模型相当的鲁棒性。在参数开销可忽略不计(<1000万)的情况下,我们的方法在长时域任务上保持了准确性,并在合成与现实物理视觉损坏场景下均超越了OpenPi。
扩展大语言模型的上下文窗口通常需要在目标长度序列上进行训练,这会引发二次方的内存和计算成本,使得长上下文适配成本高昂且难以复现。我们提出EndPrompt方法,仅使用短训练序列即可实现有效的上下文扩展。其核心洞察在于:使模型暴露于长程相对位置距离并不需要构建完整长度的输入——我们将原始短上下文保留为完整的第一个片段,并附加一个简短的终端提示作为第二个片段,为其分配接近目标上下文长度的位置索引。这种两段式结构在短物理序列中同时引入了局部和长程相对距离,同时保持了训练文本的语义连续性——这一特性在基于块(chunk)的模拟方法中是不存在的,因为后者会分割连续的上下文。我们基于旋转位置编码和伯恩斯坦不等式提供了理论分析,证明位置插值会对注意力函数施加严格的平滑约束,而共享的Transformer参数进一步抑制了向未观测中间距离的不稳定外推。将EndPrompt应用于LLaMA系列模型,将其上下文窗口从8K扩展到64K,平均RULER得分为76.03,并在LongBench上取得了最高平均分,超越了LCEG(72.24)、LongLoRA(72.95)和全长度微调(69.23),同时所需计算量大幅减少。这些结果表明,长上下文泛化能力可以从稀疏的位置监督中诱导出来,挑战了“密集的长序列训练对于可靠的上下文窗口扩展是必要的”这一主流假设。代码已开源:https://github.com/clx1415926/EndPrompt。
大语言模型(LLMs)日益成为自主智能体,需自行判断何时直接作答、何时调用外部工具。先前关于自适应工具使用的研究多将工具必要性视为与模型无关的属性,由人工或LLM评判标注,且主要覆盖答案显而易见的情形(例如获取天气信息 vs 文本改写)。然而,现实场景中的工具必要性因模型能力边界差异而更显微妙:强模型能独立解决的问题,对弱模型仍可能需要工具辅助。本研究提出一种基于模型自适应定义的"工具必要性",该定义以各模型的经验性能为基础。我们依据该定义,在算术和事实问答数据集上比较四种模型实际工具调用行为与必要性的吻合度,发现显著偏差分别达26.5%-54.0%和30.8%-41.8%。为诊断失败原因,我们将工具使用分解为两个阶段:反映模型是否认为需要工具的内部认知阶段,以及决定模型是否实际执行工具调用的操作阶段。通过探测LLM隐藏状态,我们发现两种信号通常可线性解码,但在驱动下一词元输出的后层最后一个词元区间内,其探测方向近乎正交。通过追踪样本在两阶段过程中的轨迹,我们进一步发现大部分偏差集中在从认知到行动的转换环节,而非认知本身。这些结果揭示了LLM工具使用中的"知行差距":提升工具使用可靠性不仅需要更好地识别何时需要工具,还需更有效地将该识别转化为实际行动。
强化学习(RL)正越来越多地被用于提升大语言模型的推理、编码和工具使用能力,但面向智能体的强化学习仍因成本过高而难以推广。将RL扩展到智能体LLM需要支持复杂的工作负载(包括多策略协同训练),同时高效利用弹性、异构及跨区域的计算资源。现有的LLM RL系统能够支持部分这些功能,但每项新的扩展往往都需要专门的系统工程。这一负担源于以训练器为中心的控制架构,以及RL系统组件缺乏原则性抽象。为解决这些限制,我们提出了AstraFlow——一种数据流导向的RL系统,它用原则性的组件抽象取代了传统的以训练器为中心的控制方式。在AstraFlow中,数据生成服务、数据流管理和训练被解耦为自治组件,使系统能够原生支持复杂的多策略智能体RL工作负载,并高效利用多样化的计算资源。我们在数学、代码、搜索和AgentBench工作负载上评估了AstraFlow,结果表明,同一系统无需系统级代码修改即可支持多策略训练、弹性扩展、异构跨区域执行以及可组合的数据算法。在多策略协同训练中,AstraFlow在达到与现有RL系统相当或更优精度的同时,将训练时间加速了2.7倍。
连续扩散语言模型在性能上落后于自回归变换器,部分原因在于扩散过程被应用于不适合语言去噪和令牌恢复的空间中。我们提出DiHAL——一种几何引导的扩散-变换器混合模型,其核心是探讨扩散应如何介入预训练变换器。DiHAL利用基于几何特性的代理指标对层进行评分,选取适合扩散的隐藏状态接口,并用扩散桥替换较低层的变换器前缀,同时保留上层结构和原始语言模型头部。通过重建选定层的隐藏状态而非令牌,DiHAL避免了直接的连续到离散恢复。在80亿参数规模骨干模型上的实验表明,在固定桥训练协议下,几何评分可有效预测浅层插入位置;并且在匹配扩散/恢复训练预算的诊断对比中,隐藏状态恢复性能优于连续扩散基线。这些结果表明,隐藏状态的几何特性有助于识别预训练语言模型中哪些位置适合进行基于扩散的替换。
语言模型经过指令微调,会拒绝有害请求,但这一行为背后的机制仍不明确。现有的主流操控方法作用于残差流,在高干预强度下会降低输出连贯性,限制了其实用性。我们提出对比神经元归因(CNA),该方法能识别出0.1%的MLP神经元,其激活值最能区分有害提示与良性提示,仅需前向传播,无需梯度计算或辅助训练。在指令模型上,消除所发现的回路后,标准越狱基准测试中的拒绝率降低了50%以上,且在全部操控强度下均保持流畅性和非退化性。将CNA应用于Llama和Qwen架构(参数规模从1B到72B)的对应基础模型和指令模型,我们发现基础模型包含类似的后期层判别结构,但操控这些神经元仅导致内容偏移,而非行为变化。这些结果表明,神经元层面的干预能够在不牺牲残差流方法质量的情况下实现可靠的行为操控。更广泛地说,我们的发现表明,对齐微调将预先存在的判别结构转化为稀疏、可定向的拒绝门控。
分块预填充已成为长上下文大型语言模型中广泛采用的服务策略,但在此模式下的高效注意力计算仍具挑战性。现有的稀疏注意力方法主要针对一次性预填充设计,无法高效迁移至分块预填充:当查询长度受限于块大小时,块稀疏内核效率降低;而在每个分块中对累积的KV缓存重复进行细粒度模式搜索,成本高昂。QUOKA是近期直接针对分块预填充的方法,它避免了稀疏内核的开销,但依赖查询子采样和令牌级KV选择,可能遗漏查询特定的KV条目并引入显式的KV复制开销。为解决这些限制,我们提出CompactAttention,一种基于块联合KV选择的分块预填充注意力机制。CompactAttention将二维块稀疏掩码视为KV选择信号而非直接的内核执行计划,并通过查询块联合和组内联合将其转换为GQA感知的每分组KV块表。该构造生成最小的块表,在分页执行约束下保留输入掩码选择的所有KV块,使得所选KV块可在原地访问而无需显式的KV压缩。在LLaMA-3.1-8B-Instruct模型上,CompactAttention在RULER基准测试中保持与密集注意力接近的准确率,同时在分块预填充下,于128K上下文长度时实现高达2.72倍的注意力加速。
编码智能体能够根据自然语言描述生成Web应用程序,然而近期一项基准研究显示,超过70%的生成应用未能满足功能需求。其核心难点在于:Web应用的正确性无法从源文件或终端输出中直接评估——应用程序必须经过部署、通过模拟浏览器交互进行测试,并且需要将观察到的故障转化为可操作的修复信号——而当前智能体无法在无人干预的情况下独立完成这些步骤。 我们提出TDDev框架,通过三个阶段实现这一闭环的自动化:(1)在编写任何代码之前,将高层需求转化为结构化的验收测试;(2)部署应用程序并通过基于浏览器的交互模拟进行验证;(3)将浏览器观察到的故障转化为面向编码智能体的结构化修复报告。借助TDDev,我们首次对面向Web应用生成的测试驱动开发(TDD)策略进行了受控实证研究,比较了两种编码智能体、两种骨干模型和两种基准测试下四种开发协议的表现。TDD基础设施相较于无TDD基线,持续将生成质量提升34至48个百分点。核心发现是:最优协议取决于模型的生成风格——整体构建应用的模型最受益于智能体强制执行,而保守扩展代码的模型则最受益于增量式强制执行。协议与生成风格不匹配不仅会完全消除TDD带来的收益,还会使令牌成本增加高达25倍。一项用户研究证实,TDDev将人工开发者干预降至零,使工作负载从持续提示工程转变为自主的、反馈驱动的优化。
近期研究引入了条件记忆模块,将知识存储与神经计算解耦,从而实现更直接的知识访问。与依赖动态计算路径的混合专家模型相比,显式查找提供了更高效的知识检索机制。然而,这些方法仍依赖于学习到的记忆嵌入,需要额外训练且灵活性受限。为解决这一问题,我们提出N-gram记忆模块——一种无需训练、即插即用的模块,由因果N-gram编码器和余弦门控记忆注入器组成。因果N-gram编码器直接对主干模型的预训练词元嵌入进行平均,构建N-gram表示,从而无需从头训练独立的N-gram嵌入。该设计既不需要额外的记忆表,也不需要检索流水线。余弦门控记忆注入器随后使用带ReLU的非参数余弦门控,将检索到的嵌入调制到上下文表示中。我们在Qwen3系列(0.6B至14B参数规模)的八个基准上评估了NGM。NGM将平均性能提升0.5至1.2个点,在代码生成和知识密集型任务上提升尤为显著(例如,Qwen3-14B在LiveCodeBench上提升+3.0,在GPQA上提升+3.03)。此外,NGM在多模态基准上也提升了性能(例如,Qwen3-VL-2B在MMStar上提升+1.53)。
现代音频生成主要依赖潜在空间压缩,这一过程引入了额外的复杂性并可能导致信息损失。本文提出WavFlow框架,挑战这一范式,直接在原始波形空间中生成高保真音频,无需中间表示。为克服高维低能量信号建模的固有困难,我们通过波形分块将音频重塑为二维标记网格,并引入振幅提升以对齐信号尺度,从而通过流匹配中的直接x预测实现稳定优化。为捕捉复杂的语义对齐和时间同步,我们利用自动化数据管道构建了500万个高质量视频-文本-音频三元组,使模型能够从头学习精细的声学模式。实验结果表明,WavFlow在视频到音频基准VGGSound(FD_PaSST:59.98,IS_PANNs:17.40,DeSync:0.44)和文本到音频基准AudioCaps(FD_PANNs:10.63,IS_PANNs:12.62)上取得了竞争性性能,达到或超越现有潜在空间方法的水平。本研究表明,中间压缩并非高质量合成的先决条件,为多模态音频生成提供了更简单且更可扩展的替代方案。
工具使用智能体日益需要在真实职业工作流中运行,它们必须解读多模态输入、协调外部工具、检查中间工件,并在生成最终结果前修正自身行为。然而现有基准评测往往将工具使用、计算机操作与多模态推理割裂评估,导致基准设定与现实世界中端到端全模态工具使用之间存在差距。为弥合这一鸿沟,我们提出MM-ToolBench——一个面向任务型全模态工具使用的基准评测框架。该基准包含来自客户服务与智能创作两大宏任务家族的100个可执行任务,覆盖20个子类别,由27个MCP服务器(含324个工具)提供支持。MM-ToolBench的核心设计是闭环多模态验证:智能体必须执行工具、检查渲染或转换后的工件,并在输出不符合任务具体要求时进行自我修正。为使此类评测具备可扩展性和可验证性,MM-ToolBench将基于MCP的执行与任务特定的具象评估器相结合,并构建了从场景发现、任务实例化、评估器综合到人工审核的半自动化流水线。在15个当代智能体模型上的实验表明,MM-ToolBench仍极具挑战性:通常被视为最强编码智能体模型之一的Claude Opus 4.6仅达到32.0%的任务成功率,远低于94.0%的人类基准水平。我们期望MM-ToolBench能通过闭环多模态验证机制,成为评估和推动下一代全模态工具使用智能体发展的实用基础。
视觉语言模型智能体日益依赖记忆增强强化学习来在长周期任务中复用经验,然而现有多数框架将记忆存储为文本,并依赖专有教师模型来总结或精炼记忆。这种设计与空间决策任务不匹配:几何先验被压缩为有损语言,稀疏交互常通过延迟的文本反馈而非密集的视觉接地信号来监督。我们认为,视觉语言模型智能体可复用的经验应当保持视觉接地性。基于这一见解,我们提出AtlasVA——一种无教师的视觉技能记忆框架,将记忆组织为三个互补层次:空间热图、视觉范例和符号化文本技能。AtlasVA进一步从轨迹统计数据和轻量级网格启发式规则中直接演化出危险亲和力图谱,并将这些自演化图谱作为基于势能的塑形奖励用于强化学习。这在不依赖外部大语言模型监督的情况下,统一了感知、记忆与优化。在推箱子、冰冻湖、3D具身导航和3D机器人操作基准上的实验表明,AtlasVA始终优于以文本为中心的记忆基线和具有竞争力的视觉语言模型智能体,在空间密集型任务上尤其表现出显著优势。主页:https://wangpan-ustc.github.io/AtlasvaWeb
监督微调(SFT)被广泛用于向语言模型注入新知识,但常常导致预训练能力的退化,例如推理能力和通用领域性能。我们认为,这种遗忘源于人类或外部系统提供的微调目标偏离了模型的自回归分布,迫使优化器去模仿低概率的token序列。为解决这一问题,我们提出MixSD——一种无需外部教师模型的简单方法,用于实现分布对齐的知识注入。与训练固定目标不同,MixSD通过混合基础模型自身的两个条件来动态构建监督信号:一个是观察到已注入事实的专家条件,另一个是反映模型原始先验的朴素条件。由此产生的监督序列既保留了事实学习信号,又更接近基础模型的原始分布。我们在两个合成语料库上评估了MixSD——这些语料库是为了在可控环境下研究事实回忆和算术函数习得而构建的——同时在开放域事实问答和知识编辑的标准基准上进行了测试。在多种模型规模和设置下,MixSD始终比SFT和同策略自蒸馏基线实现更好的记忆-保留权衡,在保持近乎完美的训练精度的同时,保留了基础模型高达100%的保留能力,而标准SFT仅保留1%。我们进一步证明,MixSD在基础模型下产生的监督目标具有显著更低的负对数似然,并减少了沿Fisher敏感参数方向的有害移动。这些结果表明,使监督信号与模型原生的生成分布对齐,是一种简单且有效的知识注入原则,能够缓解灾难性遗忘。
近期基于图形用户界面(GUI)的代理在视觉定位和动作预测方面取得了显著进展,但在需要跨多个界面转换保持任务状态的长期任务中,它们仍然脆弱。现有代理通常依赖原始历史回放或纯文本记忆,这种方式要么用冗余截图使模型不堪重负,要么丢弃未来决策所需的局部视觉证据。为解决这些局限,我们提出了MementoGUI——一种即插即用的代理记忆框架,通过为基于多模态大语言模型(MLLM)的GUI代理配备MementoCore(一种用于在线记忆选择、压缩和检索的学习型控制器),实现记忆增强。MementoGUI并未将交互历史视为固定上下文,而是将长周期GUI控制建模为在线记忆控制问题:工作记忆通过文本摘要和感兴趣区域(ROI)级别的视觉证据,选择性保留与任务相关的界面事件;而情节记忆则通过学习的相关性选择,检索可复用的历史轨迹。MementoCore将记忆控制模块化为专用操作符,涵盖步骤处理、记忆压缩、情节写入和情节选择等环节,从而实现对GUI代理主干模型的无微调即插即用记忆增强。我们进一步开发了可扩展的数据处理流水线,将计算机使用轨迹转化为记忆控制器训练数据;引入MementoGUI-Bench用于评估GUI代理的长周期决策能力;并设计了基于MLLM的指标用于语义动作匹配、任务进度和记忆一致性评估。在GUI-Odyssey、MM-Mind2Web和MementoGUI-Bench上的实验表明,MementoGUI持续优于无历史、历史回放和纯文本记忆等基线方法,且更大的MementoCore骨干模型能进一步增强记忆增强的GUI控制能力。
大型语言模型(LLMs)正越来越多地应用于金融分析、报告、投资决策支持、风险管理、合规以及专业培训等领域。然而,对其在金融领域专业能力的稳健评估仍不完整。诸如FinQA、ConvFinQA和TAT-QA等广泛使用的开放基准在推动金融问答和数值推理方面发挥了重要作用,但它们主要侧重于金融报告上的问答,并未提供明确的专业难度层级。包括FinanceBench、PIXIU、FinBen和FLaME在内的更广泛资源拓展了金融任务的覆盖范围,但如何评估从基础知识到专家级金融推理的过渡问题仍未解决。在此工作中,我们提出了FINESSE-Bench,一套包含八个专门基准、共3993个问题的套件,用于对LLMs的金融能力进行分层评估。FINESSE-Bench结合了受专业认证启发(类似CFA一级至三级、类似CMT二级以及类似CFTe一级)的考试导向数据集、应用交易任务集合以及一个俄语奥林匹克基准。该设计使得我们能够评估领域广度、随难度增加的性能退化、解决计算任务的能力以及模型在专业金融领域中的行为。我们还描述了一个统一的评估协议,涵盖多项选择题、数值答案和简短开放式回答,以及基于LLM-as-judge范式的自由形式答案自动评分方案。FINESSE-Bench旨在既作为现有开放金融基准的补充,也作为对大型语言模型中专业相关金融能力进行更实质性评估的工具。
将大型语言模型(LLMs)部署为自主经济代理会引入超越个体能力失效的系统性风险。随着代理转向直接与市场交互,其集体行为可能放大波动性并大规模掩盖欺骗行为。我们提出Agent Bazaar——一个用于评估经济对齐(即代理系统维护市场稳定与完整性的能力)的多代理模拟框架。我们识别出两种失效模式:(1)B2C市场中的算法不稳定性(“崩溃”),即企业放大价格波动直至市场崩溃;(2)C2C市场中的女巫欺骗(“柠檬市场”),即单个欺骗性代理通过控制多个协调的卖家身份,用欺诈性列表淹没市场,侵蚀信任与消费者福利。我们评估了前沿与开放权重模型在这两种场景下的表现,发现模型普遍无法自我调节,且失效严重程度随模型不同而变化,而非取决于模型规模。我们提出经济对齐的控制机制——稳定企业与怀疑守卫——这些机制改善了结果,但在更困难的市场条件下仍然脆弱。为弥补这一差距,我们使用自适应课程方案训练REINFORCE++代理,所得9B模型在所有评估的前沿与开放权重模型中表现最佳。我们提出经济对齐分数(EAS),一个由稳定性、完整性、福利与盈利能力四个分量组成的标量指标,支持模型间的直接比较。我们的结果表明,经济对齐与通用能力正交,可通过定向强化学习直接训练。
在真实灵巧硬件上评估具身系统所需的远不止孤立的基元技能:智能体必须感知变化的桌面场景,选择符合上下文的动作,用灵巧手执行该动作,并确保场景在后续决策中仍可被使用。我们提出了 DexHoldem——一个基于 ShadowHand 的德州扑克灵巧操作的真实世界系统级基准。DexHoldem 提供了横跨 14 种德州扑克操作基元的 1470 个遥操作演示、一个标准化的物理策略基准,以及一个智能体感知基准——用于测试智能体能否恢复具身决策所需的结构化游戏状态。在基元执行方面,π_{0.5} 取得了最高任务完成率(61.2%),而 π_{0.5} 和 π_0 在场景保持成功率上持平(47.5%)。在智能体感知方面,Opus 4.7 取得了最优的严格问题级准确率(34.3%),而 GPT 5.5 取得了最优的平均字段级准确率(66.8%),这揭示了孤立的视觉子能力与完整的路径相关状态恢复之间的差距。最后,我们在三个案例研究中实例化了完整的具身智能体循环,其中等待行为、恢复调度、人工帮助请求以及重复的基元执行揭示了在闭环部署中感知与策略误差如何累积。因此,DexHoldem 在共享的物理场景中评估了灵巧桌面操作、智能体感知以及具身决策路由。项目页面:https://dexholdem.github.io/Dexholdem/。
现代交互式视频世界模型在视觉保真度上取得了显著成就,但在细粒度多实体控制以及跨实体、跨世界泛化方面仍存在不足。我们将这一差距归因于动作接口:标准控制协议(如动画ID、设备输入、场景级描述)在设计时就将动作语义绑定到特定实体或引擎上。我们提出以自然语言作为接口,解锁以往任何接口都无法实现的表达能力,并介绍了Incantation——首个支持每潜在帧(0.25秒)自然语言条件控制的交互式视频世界模型,该模型能够实现同时多实体控制以及超越任何固定渲染流程的概念级跨实体迁移。我们采用预训练的双向视频骨干网络与帧级文本交叉注意力机制,并通过基于ODE初始化的自强制蒸馏和RoPE解耦滑动KV缓存,实现了实时长时程流式处理。在跨实体迁移(89%对比43%)和词汇外提示(90%对比0%)任务上,我们超越了动作索引基线,而我们的2步学生模型在480p分辨率下保持19.7 FPS,且在两小时的推演中FVD保持稳定。我们进一步将相同的架构和训练配方应用于《拳皇》,仅更改每个实体的动作词汇槽位。我们已在https://huggingface.co/datasets/zhush/incantation-elden-ring-scenes发布了Incantation数据集的预览子集,其中包含手动收集的《艾尔登法环》玩家-Boss对战片段及结构化的动作导向元数据。更大规模的《艾尔登法环》和《拳皇》数据将随完整项目一同发布。
尽管主体性人工智能及其核心的多模态大语言模型在从日常生活到前沿科学研究的诸多领域中,展现出在语言和视觉推理方面的卓越潜力,但人工智慧与人类智能之间仍存在巨大差距。即便整合了强大的工具与先进的多模态大语言模型,最先进的AI智能体仍常常在儿童能轻松完成的基础性、看似简单的任务上失败。受韦克斯勒儿童智力量表启发,我们提出了儿童智能体评估基准(ChildAgentEval)——首个基于心理测量学的交互式基准,用于评估基于多模态大语言模型的智能体的认知年龄对齐程度。该基准系统性地比较了多种基于多模态大语言模型的交互式智能体在推理表现上与不同年龄段人类发展阶段的差异,揭示了当前主体性AI系统在模拟特定年龄认知行为方面的能力边界。
受大语言模型中涌现行为的启发,这些行为展现了普遍化的人类智能,研究界正致力于在世界模型(尤其是物理世界建模)中探索类似的涌现能力。在物理世界模型的范畴内,物体是构成物理现实的基本原语。从人类到计算机,我们几乎与之交互的一切皆为物体。这些物体很少是静态的,而是可操作的实体,其状态随内在属性变化。当前的方法要么通过视频生成,要么通过动态场景重建来处理物体的行动状态,但均未以统一且原则性的方式显式建模这一基本元素,从而构建可操作的物体表征。我们提出WorldString——一种神经架构,能够通过直接从点云或RGB-D视频流中学习,对真实世界物体的状态流形进行建模。作为通用的数字孪生,它构成了物理世界模型的基础构建模块,因此我们将其命名为WorldString。更巧妙的是,其完全可微的结构能够无缝地支持未来与策略学习和神经动力学的集成。
扩散模型在消除预训练过程中学到的不安全内容方面已被广泛研究。现有方法需要昂贵的监督数据,要么是不安全文本与安全图像真值配对,要么是负/正图像对,这使得它们难以规模化扩展。此外,离线强化学习和监督微调方法通过离线生成合成数据,但会遭受灾难性遗忘,导致生成质量下降。我们提出了一种新颖的在线强化学习框架,通过在后训练阶段对负向和正向文本提示应用组相对策略优化(GRPO),同时解决了数据稀缺和模型退化问题。为了消除对专用安全/不安全奖励模型进行微调的需求,我们引入了一种导向奖励机制,该机制利用了CLIP嵌入的一个固有特性:在嵌入空间中,将文本表示导向正向安全方向并远离负向方向。我们的在线策略方法使模型能够从包括明确不安全内容在内的多样化提示中学习,而不会发生灾难性遗忘。大量实验表明,我们的方法将不适当内容降低至18.07%(对比SD v1.4的48.9%),裸体检测降至15次(对比基线的646次),同时在GenEval上,组合生成质量从42.08%提升至47.83%。值得注意的是,这些安全增益在七个危害类别的域外不安全提示上具有泛化性,实现了无需监督配对数据或奖励调优的最优性能。GitHub:https://github.com/MAXNORM8650/SafeDiffusion-R1。
抽象推理能力体现大语言模型提取和应用抽象规则的智能与泛化能力。然而,准确测量这一能力仍面临挑战:现有基准测试要么依赖昂贵的人工标注,限制了扩展规模,要么存在衡量记忆而非真正推理的风险。为解决这一问题,我们提出了名为A2RBench的自动化流程,涵盖生成、扩展、评估和分析四个阶段。具体而言,在生成阶段,大语言模型创建需要真实推理的多样化任务;在扩展阶段,大语言模型复用已验证的规则并扩展新的输入空间以生成任务变体,实现规模化。但这一过程可能引发幻觉。为消除幻觉,我们进一步建立理论框架,证明程序化验证——测试逆操作能否完美逆转正向操作(循环一致性)——可确保唯一解。通过对主流大语言模型的广泛评估,我们发现:(1)当前大语言模型在抽象推理中存在根本性缺陷,顶尖模型在代表性子集上的表现显著低于人类(39.8%对比68.5%)。(2)当前大语言模型在生成的三维任务复杂度方面远不及二维和一维任务,揭示其对高维任务理解不足。(3)反直觉的是,信息复杂度更高的输入反而能简化推理过程。
INT2 KV缓存量化对长上下文大语言模型服务极具吸引力,但实现高精度与可部署性仍面临挑战。诸如哈达玛变换等简单旋转操作虽能减少异常值,但由于未能与下游注意力机制对齐,在INT2精度下仍会出现性能退化。我们提出OSCAR——一种超低位KV缓存量化方法,该方法离线估计注意力感知的协方差结构,并据此推导固定旋转矩阵与量化裁剪阈值。通过这种方式,OSCAR将KV量化与注意力实际使用的协方差结构对齐。更重要的是,我们不仅提供了理论依据,还开发了完全可部署的OSCAR系统,该系统包含自定义INT2注意力核,能够兼容分页式KV缓存服务与融合核流水线,从而无缝集成到SGLang、vLLM等现代大语言模型服务框架中。 我们在包含最长32K标记推理轨迹的最新推理模型上,于5项任务中评估了该方法。在Qwen3-4B-Thinking-2507与Qwen3-8B模型上,OSCAR将BF16精度差距分别缩小至3.78和1.42个百分点,而朴素旋转INT2量化的精度几乎降至零。我们进一步将OSCAR扩展至Qwen3-32B与GLM-4.7(358B参数),其性能仍与BF16持平。在最长128K的长上下文RULER-NIAH任务中,OSCAR在两种Qwen3模型上均保持鲁棒性,而朴素旋转INT2量化则完全失效。系统层面,OSCAR将KV缓存内存减少约8倍,在相同内存预算下将大批量处理吞吐量提升高达7倍,同时由于内存带宽开销降低,单批次解码速度相比BF16提升高达3倍。
GPU内核优化对于高效的深度学习系统日益关键,但编写高性能内核仍需深厚的底层专业知识。当前AI编程智能体能够迭代读取代码、调用编译器和性能分析工具并优化实现,但现有内核基准测试仅评估单次大语言模型调用而非完整智能体工作流,且均未包含内核间优化与未见配置泛化测试。我们提出AgentKernelArena——一个用于评估AI编程智能体在GPU内核优化上表现的开源基准测试。该基准包含196个任务,涵盖HIP到HIP优化、Triton到Triton优化以及PyTorch到HIP转换,并通过门控编译、正确性和性能检查、集中评分以及测试优化能否迁移至智能体从未见过的输入配置的未见配置泛化协议,在隔离工作空间中评估完整智能体工作流。在Cursor Agent、Claude Code和Codex Agent等生产级智能体上,我们发现大多数任务类别实现近乎完美的编译与高正确率,最强配置在PyTorch到HIP、HIP到HIP和Triton到Triton任务上分别达到平均6.89倍、6.69倍和2.13倍加速。未见配置评估表明,HIP到HIP和Triton到Triton的优化大多能迁移至未见输入形状,而PyTorch到HIP则出现显著的正确率下降,提示从零生成内核的智能体常会硬编码形状相关假设。AgentKernelArena被设计为一个模块化、可扩展的框架,用于跨智能体、任务和硬件目标对智能体式GPU内核优化进行严格评估。
自回归语言模型按顺序执行Transformer层,由此产生的延迟瓶颈无法通过常规的张量或流水线并行消除。我们研究能否通过将跨层的隐藏状态轨迹视为非线性残差方程的解,并采用并行牛顿类更新进行求解,从而放松这种逐层依赖关系。尽管这一视角具有理论依据,但精确的牛顿校正需要昂贵的雅可比-向量积计算,且朴素的不动点迭代在训练后的Transformer上不稳定。为此,我们提出结构化牛顿层并行(SNLP)——一种训练与推理框架,用廉价的结构诱导代理动力学替代精确的层雅可比矩阵。在残差Transformer中,这衍生出恒等牛顿(IDN),其校正简化为前缀和类更新;在mHC类架构中,HC牛顿(HCN)利用模型的残差混合矩阵。我们进一步引入SNLP感知正则化,训练模型使得一次或少数几次结构化牛顿迭代能精确逼近顺序前向传播。在nanochat规模Transformer上的实验表明,SNLP正则化提升了层并行兼容性,且能改善标准顺序困惑度,使基线PPL降低4.7%-23.4%。推理阶段,SNLP结合层融合与分块分解实现了实际加速:在0.5B Nanochat模型上获得2.3倍加速的同时,PPL仍降低6.1%。这些结果表明,层并行推理不仅是顺序执行的数值近似,还可作为有效的求解器诱导推理偏置。我们也指出局限性:现成的预训练模型对此过程适应性较差,且精确收敛会恢复顺序计算而非提供单调的推理时缩放效果。
记忆系统能在相似的硬件限制下存储数量悬殊的信息。本文证明,优越的空间记忆源于海马群体编码发生离散性硬化——从无序到晶体化集体编码的相变。通过比较存储食物的山雀与非存储食物的斑胸草雀,我们发现存储型海马维持着拓扑刚性的"晶体化"几何结构,其几何稳定性显著更高(Shesha指数0.245 vs 0.166),时间相干性提升近两倍(Shesha指数0.393 vs 0.209),而非存储型海马则呈现类似无序"迷雾"的编码模式。这种稳定性通过协同电路动力学主动构建:兴奋性神经元搭建空间支架,与之相伴的是抑制性群体贡献正交去相关——这种电路基序中兴奋性与抑制性群体占据近乎不重叠的表征子空间。与Valiant稳定记忆分配器的双重分离实验(该模型预测每个记忆对应专用神经元集群)证实,此优势源于连续拓扑组织而非离散神经元分配:存储型网络虽具几何优越性,其分半分配信度却趋近于零。基于1万种配置的计算建模揭示,拓扑刚性是规模扩展的数学前提:晶体化编码能在超过M=1k位置时维持高保真度读取,而迷雾编码在M=10时即失效,两者容量差异超百倍。这种容量需要169倍的表征冗余——一种稳定流形对抗生物噪声的"几何税"。这些发现将几何稳定性确立为生物记忆的候选组织原则:进化实现高容量记忆并非通过增殖神经元,而是通过重新设计神经编码本身的几何结构。
深度学习实践中长期存在一个显著的几何差异。现代神经网络架构天然展现丰富的对称性与等变性,而Adam及其变体等主流优化器本质上是按坐标操作的,无法尊重参数空间的等变性结构。为解决这一差异,我们提出一种对称性兼容的优化器设计原则:梯度更新规则应在作用于对应权重块的对称群下保持等变。遵循该原则,我们首先从统一视角审视了随机谱下降、Muon、Scion和极梯度方法中针对通用矩阵层所采用的双正交等变更新。更重要的是,通过从正交群推广到置换对称与共享平移对称,我们推导出适用于参数块(其对称性与通用矩阵层不同)的对称性兼容优化器:嵌入层与语言模型头部矩阵、SwiGLU MLP投影、以及MoE路由矩阵。这些构造包括单侧谱更新、行范数更新、混合行范数/谱更新、行感知更新、列感知更新、中心化行范数更新和左谱更新。由此形成一套端到端的逐层优化器栈,其中每个主要的矩阵值参数类都被赋予与其对称群等变匹配的更新。我们通过预训练实验验证了这一原则,实验涵盖稠密与稀疏MoE语言模型,包括Qwen3-0.6B风格、Gemma 3 1B风格、OLMoE-1B-7B风格和缩小规模的gpt-oss架构。在这些实验中,与对应AdamW更新相比,对称性兼容更新持续改善了最终验证损失,并在多个案例中提升了训练稳定性。
低资源部署约束使模型量化成为在保持性能的同时部署神经网络的关键技术。与此同时,模型合并已成为一种日益实用的低资源策略,可将多个任务或领域专长的专家模型整合为单一模型,无需联合训练或多模型服务。量化与模型合并相结合,通过将多个专家模型集成到一个低位宽模型中,实现了高效的低资源部署流程。我们将这一设定定义为合并后量化(PMQ)。研究表明,直接对合并后的模型应用训练后量化(PTQ)并不可靠,因为两种不同的偏差会耦合:低位宽重建引入的量化偏差以及模型合并固有的专家相对合并偏差。为减轻这些偏差,我们提出E-PMQ,一种专家引导的PMQ框架。该框架利用源专家权重,在逐层校准过程中提供专家引导的输出目标,同时结合合并权重锚定来稳定校准过程,并保持合并模型的集成行为。在CLIP-ViT-B/32的八任务合并中,E-PMQ将任务算术下的4位GPTQ从65.0%提升至73.6%,将TIES-合并下的GPTQ从69.1%提升至74.8%。在更具挑战性的设定下,E-PMQ将CLIP-ViT-L/14二十任务合并的GPTQ从34.8%提升至76.7%,将FLAN-T5-base在GLUE上的GPTQ从78.26%提升至83.34%。这些结果表明,E-PMQ能够实现有效的合并后量化与低位宽部署。
多模态大语言模型(LLMs)正被越来越多地探索作为临床场景中的自动评估工具,然而它们在序数量表上的评分行为仍缺乏深入理解。本研究以三项前沿LLM家族为基准,将其与监督深度学习模型在基于Shulman评分标准的两类公开数据集上进行画钟测验(CDT)图像评分比较。尽管完全微调的视觉Transformer取得了最佳校准性能(MAE 0.52,±1准确率91%),零样本LLM在容差一致性指标上仍具竞争力(GPT-5 MAE 0.67,±1准确率92%),但其绝对误差较高。然而,逐得分分析揭示,所有三类LLM家族均表现出显著的集中趋势效应(系统性端点压缩):预测值系统性地向量表中间值压缩,在低分端(得分0至1)存在过度预测,在高分端(得分5至4)存在低估。这种效应不对称地影响了临床关键极端值,而恰恰在这些极端值上,准确评分对认知障碍筛查决策影响最大。针对性的消融实验表明,无论是采用涵盖全得分范围的少样本示例,还是从提示中去除临床术语,均无法消除该效应。本研究将LLM作为评审的偏差分析文献从自然语言处理评估拓展至临床评估领域,并强调在将LLM评分系统部署至高风险筛查流程前,需进行考虑校准性能的评估及事后校准。
大型推理模型(LRMs)通过其链式思维(CoT)推理为安全监控带来了新机遇。然而,CoT并不总是忠实于模型的最终输出,这削弱了其作为监控工具的可靠性。为解决这一问题,我们探究LRMs的隐藏表征,以判断是否可以从提示和CoT表征中预测未来行为。通过在每个生成token处评估探针,我们构建了一条探针轨迹——即某个概念的概率在推理过程中连续演变的轨迹。我们发现,相较于单次静态预测,从完整轨迹上考察未来模型行为更具区分性。为刻画这些时间动态特征,我们提取了捕捉波动性、趋势和稳态行为的信号处理特征,显著提升了未来模型状态的可分离性。此外,我们得到两点方法学启示:其一,基于模板的训练数据能够达到与动态生成模型响应近乎等同的效果,从而省去了代价高昂的初始推理和标注步骤;其二,池化操作的选择至关重要——平均池化和最后token方法的效果退化至近乎随机,而最大池化可达95%的AUROC,并能生成稳定的探针轨迹。我们使用涵盖安全与数学领域的四个数据集和四个推理模型证明:轨迹特征编码了任务特定的动态信息,从而提升了结果的可分离性。这些发现确立了探针轨迹作为监控LRM行为的一种补充框架。 警告:本文包含潜在有害内容。
大型语言模型(LLMs)正越来越多地被部署为科学人工智能助手,同时大量基准测试评估了它们在知识检索、推理、代码生成和工具使用等方面的能力。然而,这些评估通常假设科学问题已经明确定义,而实际科学辅助工作往往始于一个定义不清的用户请求,需要通过对话逐步优化,之后才能可靠地执行计算、分析或实验。我们提出了SCICONVBENCH——一个面向科学任务构建中的多轮澄清基准,涵盖四个计算科学问题领域:流体力学、固体力学、材料科学和偏微分方程(PDEs)。SCICONVBENCH针对两个互补能力:获取缺失信息(歧义消解)以及检测并修正含有内部矛盾信息的错误请求(矛盾识别与修正)。我们的基准将结构化任务本体与基于评分细则的评估框架相结合,能够系统性地从三个维度衡量LLM性能:澄清行为、对话根基以及最终规格的保真度。当前前沿模型在矛盾识别与修正方面表现相对较好,但即便最佳模型在流体力学领域也仅能解决52.7%的歧义消解案例。我们进一步发现,前沿LLM常常做出隐含假设,并在未与用户对话达成共识的情况下进行隐式规格修复。SCICONVBENCH为评估可靠计算科学助手所需的上游对话推理能力奠定了基础。代码和数据见https://github.com/csml-rpi/SciConvBench。
我们提出了一种独立的自回归(AR)动作专家模型,该模型以连续因果序列生成动作,同时以可刷新的视觉-语言前缀为条件。与现有的视觉-语言-动作(VLA)模型和扩散策略(它们会在每次新观测时重置时序上下文,并以被动方式预测动作)不同,我们的动作专家通过长期记忆维持自身历史,天然具备上下文感知能力。这种结构解决了快速控制与慢速推理之间的频率不匹配问题,支持运动句法的高效独立预训练,以及与重型感知骨干的模块化集成,从而自然确保跨帧生成时空一致的动作。为了同步这些异步混合的视觉-语言-动作模态,我们利用一种重锚定机制,在训练和推理过程中数学上考虑了感知滞后。在模拟和真实机器人操作任务上的实验表明,所提方法能够有效替代传统基于分块的动作头,适用于专家策略和通用策略。AR-VLA展现出更优的历史感知能力和显著更平滑的动作轨迹,同时保持或超越了最先进反应式VLA的任务成功率。总体而言,我们的工作引入了一种可扩展的、上下文感知的动作生成模式,为训练有效的机器人策略提供了稳健的结构基础。代码和视频见https://arvla.insait.ai。
理解社交互动需要对微妙的非语言线索进行推理,然而当前的多模态大语言模型(MLLMs)在多人物视频中常常无法识别谁在与谁互动。我们提出了GRASP,一个大规模社交推理数据集,将高层级社交问答与细粒度的注视和指示性手势事件联系起来。GRASP包含覆盖46K个视频(总计749小时)的290K个问答对,按照涉及注视、手势以及注视-手势联合推理的16个类别分类体系组织,并配套用于评估的GRASP-Bench。与以往仅关注孤立线索或高层级社交问答的资源不同,GRASP基于身份一致的注视轨迹、指示性手势及其在社交事件中的联合构成来构建问题。此外,我们提出了社交接地奖励(SGR),这是一种利用这些社交事件来鼓励模型推理每个互动中参与者的学习信号。实验表明,在保持相关社交视频问答基准零样本性能的同时,SGR提升了在GRASP-Bench上的表现。
我们提出 TopoPrimer 框架,该框架使序列群体的全局拓扑结构成为任何预测模型的显式输入。TopoPrimer 提升了跨不同领域的预测精度,在季节性需求高峰下稳定预测结果,并弥补了冷启动差距。通过持久同调和谱层坐标,在每个领域预计算一次后,TopoPrimer 以 token 为单位部署到完全训练的模型中,并作为轻量级适配器用于预训练主干网络。在这两个组件中,谱层坐标是主要的精度驱动因素。在 Chronos 和 TimesFM 的四个公开基准测试中,TopoPrimer 持续提升预测精度,在 ECL 数据集上 MSE 提升高达 7.3%。这一拓扑优势在零样本和微调主干网络中表现出几乎相同的幅度,表明拓扑与逐序列训练捕捉到了互补的信号。在困难情形下,增益最为显著:在季节性需求高峰时期,经典模型和零样本模型的性能下降高达 50%,而 TopoPrimer 的下降幅度保持在 10% 以内;在冷启动(无商品历史数据)时,TopoPrimer 相较于无拓扑的基线将 MAE 降低了 27%。