每日精选AI研究论文及翻译
大型语言模型(LLM)智能体的记忆机制已迅速从简单的检索增强机制演变为支持持久化信息存储、检索、更新、整合以及在智能体执行过程中进行动态生命周期管理的数据管理系统。尽管经历了这一演变,现有评估仍主要通过端到端任务成功指标(如F1、BLEU)来评测智能体记忆,而将底层系统视为一个单一黑盒。因此,关键的系统级问题,包括操作成本、各记忆模块间的架构权衡,以及动态知识更新下的鲁棒性,尚未得到充分探索。本文从数据管理视角出发,对智能体记忆进行了系统性实验研究。我们提出了一种分析框架,将智能体记忆分解为四个核心模块:记忆表示与存储、提取、检索与路由,以及维护。在此框架下,我们评估了12个代表性记忆系统及两个参考基线,涵盖跨11个数据集的五个基准工作负载。广泛的端到端评估表明,没有单一架构在所有场景中占据优势;相反,其有效性高度依赖于记忆结构与工作负载瓶颈的匹配程度。此外,通过细粒度的消融研究,我们量化了各模块对表示保真度、检索精度、更新正确性及长程稳定性的独立影响。最后,我们揭示了现实工作负载下的成本-性能权衡,表明局部维护比全局重组更具成本效益。基于这些发现,我们识别出构建真正原生的智能体记忆系统的有前景方向。代码已公开于 https://github.com/OpenDataBox/MemoryData。
开放域主体驱动文本到视频(S2V)生成在学术界和工业界引起了广泛关注。开放域S2V主要涉及两种场景:域内场景,要求尽可能保留参考主体特征;以及跨域场景,需保留主体的内在特征,同时允许与主体无关的属性根据文本提示灵活变化。现有方法主要侧重于在域内场景中最大化主体保真度,这限制了它们在跨域场景(如新颖风格、语义组合或域属性)中的可编辑性和适应性。本研究提出,理想的S2V方法应能在不同域之间灵活切换,在域内和跨域场景中均实现强性能。为此,我们提出DomainShuttle,能够在开放域视频个性化中实现高保真度和生成灵活性。具体而言,我们引入Domain-MoT,解耦视频与参考特征,并引入域感知的AdaLN,用于对参考图像进行特定域的建模。随后,我们提出视频-参考双RoPE方案,将参考图像标记和视频标记分别置于独立的RoPE空间中,以实现精确的主体级空间建模;同时引入跨对一致性损失,旨在提取不受无关特征影响的主体内在特征。大量实验表明,DomainShuttle在多种开放域应用场景中相比现有方法实现了显著的性能提升,展现出高主体保真度和生成灵活性。
我们推出Wan-Streamer,一款原生流式、端到端交互基础模型,专为实时、低延迟、全双工音视频交互从头设计。Wan-Streamer在单一Transformer中无缝建模语言、音频和视频作为输入与输出,其序列以交错的视觉、音频和文本输入令牌与视觉、音频和文本输出令牌的形式表示,并通过块级因果注意力机制协调增量流式处理。与依赖独立VAD、ASR、语言、TTS、音频驱动动画或视频生成模块的级联交互系统不同,Wan-Streamer不依赖外部语言、语音、虚拟形象或视频生成模块:感知、推理、生成、响应时序、话轮管理以及跨模态同步均在统一模型中联合学习,从而降低流水线延迟和误差积累。为支持自然的视听响应,我们围绕流式能力重新设计了整个技术栈,包括因果编码器、因果解码器、块级因果注意力以及低延迟多模态令牌调度,使得流式单元短至160毫秒(25 fps)。Wan-Streamer实现了约200毫秒的模型侧响应延迟,结合350毫秒双向网络延迟后总交互延迟约550毫秒,支持亚秒级双工音视频通信。这些成果使Wan-Streamer成为面向低延迟流式交互的统一、端到端、多模态交互基础模型。
现实摄影需要在拍摄时对取景构图和被摄者姿态进行引导。然而,现有的美学裁剪基准主要评估事后裁剪预测,忽略了被摄者侧的建议,使得多模态大语言模型(MLLMs)在拍摄时引导能力上的探索尚不充分。为填补这一空白,我们提出了CaptureGuide-Bench,这是一个包含两个互补任务的基准:摄影师侧的构图决策与优化,以及被摄者侧的基于场景的姿态推荐。我们的评估揭示了现有方法的局限性:通用型MLLMs能够做出构图决策,但缺乏精确的优化定位能力;而专门的美学裁剪模型虽能有效定位裁剪区域,却仅限于优化任务,两者均无法提供可执行的姿态引导。为支持模型开发,我们进一步构建了CaptureGuide-Dataset,包含13万个带有文本理由和结构化视觉标注的样本,并开发了ShutterMuse——一个统一的多模态大语言模型,通过监督学习和强化学习微调进行训练。在CaptureGuide-Bench上的实验表明,ShutterMuse在评估基线中取得了最佳的摄影师侧综合性能,同时在显著降低推理成本的情况下,在被摄者侧姿态推荐方面也表现出色,展示了多模态大语言模型作为图像拍摄过程中交互式助手的潜力。
现代大型语言模型主要采用自回归分解和因果注意力进行训练。我们提出iLLaDA,这是一个80亿参数的掩码扩散语言模型,从零开始训练,采用完全双向注意力机制。iLLaDA在预训练和监督微调(SFT)阶段全程保持掩码扩散目标,预训练规模扩展至12万亿tokens,并在250亿tokens的指令数据集上进行了12个周期的微调。此外,我们采用可变长度生成以提高效率,并引入基于置信度的评分用于多项选择评估。与LLaDA相比,iLLaDA在通用、数学和代码基准测试中均有显著提升;例如,iLLaDA-Base在BBH上提升21.6个百分点,在ARC-Challenge上提升14.9个百分点,而iLLaDA-Instruct在MATH上提升14.5个百分点,在HumanEval上提升16.5个百分点。尽管采用非自回归训练,iLLaDA在多个基准测试中仍能与Qwen2.5 7B保持竞争力。这些结果表明,从零开始进行完全双向扩散训练是通往强大语言模型的竞争性途径。模型权重和代码:https://github.com/ML-GSAI/LLaDA。
尽管大型语言模型(LLMs)在文本到代码合成方面取得了显著进展,但许多实际编程任务通过截图、图表、矢量绘图、视频和交互状态等视觉元素来指定意图。这些任务要求模型将视觉感知与可执行程序相连接,因为正确性不仅取决于语法,还取决于执行后适用的布局、数据语义、交互行为及领域特定约束。本综述探讨了多模态代码智能,涵盖在视觉引导的输入和输出下生成、编辑、优化或推理代码的系统。我们首先通过代码在每项任务中扮演的角色来界定该领域,区分代码作为渲染制品、可编辑的符号结构、科学表示、中间推理痕迹,以及可执行的策略或工具接口。随后,我们将基准测试和方法组织为四个领域:图形用户界面、科学可视化、结构化图形,以及前沿任务与框架。这一分类将成熟的制品生成问题与新兴的智能体和统一设置联系起来,使我们能够比较不同任务如何处理正确性证据。展望未来,我们认为未来研究可能受益于四个以验证为核心的方向:多信号验证可结合互补的正确性证据,多状态验证可测试跨执行轨迹的行为,跨任务迁移测试可探索可复用的视觉-代码技能,而可验证的智能体痕迹可揭示智能体行动是否基于视觉证据。这些方向共同可能推动该领域从单一输出的模仿走向基于证据的可执行系统。相关持续项目与资源可访问 https://github.com/xjywhu/Awesome-Multimodal-LLM-for-Code{GitHub}。
从单目参考视频沿目标相机轨迹合成新视角视频,需要与参考视频在几何一致性和运动保真度上保持对齐。基于显式3D表示的现有方法受限于现成重建模块的精度,这些模块在处理单目视频中的动态物体时往往生成不准确的几何结构。相比之下,仅基于相机条件的方法虽能实现高视觉质量,却常难以维持几何与运动的一致性。本文提出MVTrack4Gen(面向新视角生成的多视角点跟踪),一种运动感知训练框架,通过利用多视角点跟踪作为额外的几何与运动监督信号,增强仅基于相机条件的新视角视频扩散模型。我们的关键发现是,特定注意力层编码了强对应线索:查询特征会关注跨视角与跨时间几何对应位置的关键特征,而这些对应的错位会导致运动不一致。基于此观察,我们将这些特征路由至辅助多视角跟踪头,并与点跟踪目标联合训练扩散模型。通过显式强化这些运动感知对应,MVTrack4Gen改进了现有模型,使其能更准确地跟随参考视角中的运动并保持跨视角几何一致性。在多个基准测试中,我们的方法取得了最先进的几何一致性与具有竞争力的相机精度。
细粒度视觉推理需要多模态大语言模型(MLLMs)识别与任务相关的视觉证据,并将其推理过程锚定在局部图像区域。现有基于智能体的方法通常依赖带可验证奖励的强化学习或在大规模标注推理轨迹上进行监督微调,这导致了昂贵的探索过程、手动设计的验证规则或对文本监督的严重依赖。避免此类外部答案标签的自然方式是让学生自身采样的轨迹进行学习,这指向了在线策略蒸馏(OPD)。为理解OPD在视觉推理中的能力与局限,我们将其重新阐释为无负样本的停止梯度对齐。该视角表明,尽管OPD提供了有效的令牌级校正,但其性能上限受限于缺乏轨迹级判别能力。受此观察启发,我们提出V-Zero——一种无需答案标签、基于对比证据门控的视觉推理框架。V-Zero不使用任何标注文本答案标签,而是在训练过程中将问题相关的区域裁剪图与负视觉视图配对,以评估学生采样的轨迹并调控密集令牌级蒸馏过程。在多个视觉推理基准上的实验表明,V-Zero持续提升了细粒度视觉推理能力,同时保持了强大的泛化性能。值得注意的是,V-Zero的训练速度比以往监督微调方法快5倍以上,比强化学习基线快10倍以上。代码与数据集将在https://github.com/eVI-group-SCU/V-Zero发布。
生成连贯的多镜头视频需要结构化的跨镜头记忆。主体外观、场景上下文和说话者身份必须在镜头切换间保持一致。现有方法要么在固定长度的序列上进行端到端训练且无法扩展,要么通过线性增长的记忆库逐镜头生成,要么在缺乏多镜头感知基础架构的情况下,借助大语言模型规划器编排预训练生成器。我们提出UnityShots,这是一种基于LTX-2.3构建的、由记忆驱动的多镜头音视频生成系统,并在标注过的电影和音乐视频镜头上进行训练。视频流中维护两个固定大小的槽位:一个锚定于开场镜头的长期记忆槽位,以及一个存储紧邻前一镜头尾部的短期记忆槽位。两者在每个镜头切换时通过融合视觉切分概率与节拍追踪信号的边界条件门控进行更新。音频流在每个镜头输入一个参考说话者标记,以在不使用滑动音频库的情况下保留音色。通过自适应层归一化学习到的离散切分类型先验,成为推理阶段控制过渡强度的可调节参数。我们发布了一个包含200个多文化、多镜头序列的基准数据集,涵盖六个民族地区和十种以上语言,同时提供每个镜头的参考身份、参考音频以及每个镜头边界的过渡标签。在图像到视频、文本到视频和参考到视频三种条件模式下评估,UnityShots在所有跨镜头连贯性指标上均领先于开源基线,并在多镜头评估维度上媲美最强闭源系统。
自回归视频扩散结合因果扩散变换器,已成为实时流媒体视频生成和动作条件交互世界模型的主要范式。在本工作中,我们将先进的扩散蒸馏框架rCM扩展到自回归视频扩散。rCM的核心哲学在于前向散度和反向散度之间的互补性,分别由扩散蒸馏中的一致性模型(CMs)和分布匹配蒸馏(DMD)表示。这一哲学自然延续到自回归设定中,其中教师强制(TF)提供了一种离线、前向散度的因果训练范式,而自强制(SF)则对应一种在线、反向散度的精细化方法。 我们的贡献如下:(1) 通过大量实验,我们表明教师强制一致性模型是目前作为自强制DMD初始化策略的最佳补充;(2) 我们首次实现了基于教师强制的连续时间一致性模型(例如sCM/MeanFlow)用于自回归视频扩散,这得益于我们定制的掩码FlashAttention-2 JVP内核,相比离散时间一致性模型(dCM)实现了10倍的收敛加速;(3) 我们提出了Causal-rCM,这是一个领先、统一且可扩展的算法-基础设施开放配方,用于扩散蒸馏和因果训练;(4) 我们在逐帧和逐块两种设定下均取得了最先进的流媒体视频生成性能,且仅使用合成数据进行训练。 值得注意的是,我们蒸馏后的2步因果Wan2.1-1.3B模型仅需1或2个采样步骤,即可达到84.63的VBench-T2V评分。我们进一步将Causal-rCM应用于Cosmos 3——一个面向物理AI、具备动作条件生成能力的先进全模态世界基础模型,从而实现了交互式世界模型。
统一的多模态大语言模型(MLLMs)在文本到图像生成质量上取得了显著进展,但在结构感知提示遵循方面仍存在不足,尤其是对象计数、空间关系、属性绑定和粗略布局的保持。我们部分地将这一局限归因于结构规划与外观渲染在单一条件流中的纠缠。为解决这一问题,我们提出隐式视觉思维链(IV-CoT),一种用于查询条件图像生成的潜在视觉推理框架。IV-CoT将视觉条件查询分解为结构到语义的级联:结构查询首先形成潜在视觉规划,随后语义查询基于该规划渲染外观。为引导结构查询,我们引入仅用于训练的草图监督,鼓励其从草图中捕获结构信息,而无需在推理阶段进行草图提取或中间解码。IV-CoT通过单次前向传播实现隐式思维链推理,并在GenEval和T2I-CompBench上取得了优越结果。可视化与分析表明,学习到的结构查询与语义查询在结构感知生成中发挥着互补作用。
我们提出了EBench,这是一个仿真基准测试工具,用于从单一成功率标量之外的维度诊断通用移动操作策略。EBench包含26个多样化且具有挑战性的操作任务,这些任务在5个能力维度和4个泛化维度上进行了标注。我们评估了最先进的通用操作模型,包括π_0、π_{0.5}、XVLA和InternVLA-A1,并揭示了成功率相近的模型展现出截然不同的能力特征:π_{0.5}取得了最高的测试成功率和最佳的训练-测试保持率,而InternVLA-A1在移动操作任务中占主导地位,但在灵巧操作任务上表现不佳;XVLA则在一组与其他模型不重叠的原子技能上展现出优势。除了能力特征分析,EBench还从4个代表性视角分析了泛化能力,识别了不同分布偏移因素的影响。这些结果揭示了模型在总体得分背后各自的优势与不足。我们希望该基准能提供广泛的诊断信号,用于指导通用操作模型的迭代开发。
《施动者AI漫游指南》是一本面向从业者的构建自主AI系统综合参考手册。本书覆盖从基本原理到生产部署的全技术栈,其核心论点在于:构建卓越的施动者系统需要理解流程的每一层级,而非仅关注单一环节。开篇首先阐述大语言模型基座——涵盖Transformer架构、GPU系统、训练与微调(SFT、LoRA、MoE)、模型压缩及推理优化——将其作为必要基础而非重点对象。随后深入对齐与推理层级:包括基于人类反馈的强化学习(RLHF)、PPO、DPO及其变体、GRPO、奖励建模,以及面向大型推理模型的强化学习技术(涵盖思维链与测试时扩展策略)。后半部分聚焦施动者AI本体,涉及施动者训练与轨迹强化学习、检索增强生成(RAG与施动者RAG)、记忆系统(上下文记忆、外部记忆、情节记忆与语义记忆)、施动者框架设计与上下文管理,以及施动者设计模式分类体系。智能体间协调机制得到详尽探讨:模型上下文协议(MCP)、施动者技能与工具调用、智能体间通信协议(A2A),以及涵盖集中式、分布式与层级拓扑的多智能体架构。全书以施动者开发框架、施动者界面设计、施动者任务评估方法论及生产部署收尾。每章均将严谨理论基础与实现指南、代码示例及原始文献引用相结合。
链式思维(Chain-of-Thought, CoT)已成为通过引导逐步推理来提升大型语言模型推理能力的标准方法,但其在多模态任务中的有效性尚未明确。本文旨在系统探究核心问题:多模态链式思维推理能做什么,在哪些场景及因何存在不足?为此,我们选取感知与推理两大类别中的12个多模态任务,使用14个非推理模型与8个推理模型进行评估。分析揭示了几项重要发现:(1)CoT并非免费午餐,需根据任务的具体需求选择性使用。在感知类任务中,CoT可能产生不良副作用,例如降低视觉定位与物体计数的性能;相反,在涉及数学、科学及多图像推理的推理任务中,CoT表现有效;(2)与原始模型相比,现有开源多模态推理模型的总体提升往往微乎其微,这或许是因为过度侧重数学推理而牺牲了更广泛的能力;(3)视觉推理仍是当前多模态CoT的关键瓶颈,模型呈现出"轻视觉、重思考"的模式——在推理过程中,言语反思时高时低,而视觉反思则持续衰减。这些结果表明,尽管多模态CoT能较好处理言语反思,但缺乏在整个推理过程中维持深层视觉内省的能力。
我们提出了Autodata,这是一种通用方法,使人工智能代理能够扮演数据科学家的角色,构建高质量的训练和评估数据。我们展示了如何训练(元优化)这样一个数据科学家代理,使其学会创建更强大的数据。我们描述了总体框架以及一个具体的实际实现——Agentic Self-Instruct(智能体自我指令)。我们在计算机科学研究任务、法律推理任务以及数学对象推理任务上进行了实验,与经典的合成数据集创建方法相比,我们取得了改进的结果。此外,对数据科学家代理本身进行元优化带来了更大的性能提升。智能体数据创建提供了一种将增加的推理计算转化为更高质量模型训练的方法。总体而言,我们相信这一方向有潜力改变我们构建人工智能数据的方式。
尽管视频虚拟试穿(VVT)在合成动态对象上的逼真衣物覆盖方面取得了显著进展,现有范式仍从根本上受限于对源相机轨迹的被动依赖,无法满足全方位视角探索所需的交互自由。为解决这一局限,我们定义了一个开创性的研究前沿:相机可控视频虚拟试穿(CaM-VVT)。与传统VVT不同,CaM-VVT不仅需要与视角无关的纹理生成,还要求在任意无约束相机运动下,非刚性人体动态与背景上下文之间实现严格的结构同步。为应对这些挑战,我们提出了TryOnCrafter——首个专为CaM-VVT任务设计的基于DiT的统一框架。不同于隐式的像素空间操作,我们引入了一个可渲染的4D试穿代理,该代理明确地将人体对象与环境解耦。这是通过将高保真2D试穿先验蒸馏到基于3DGS的穿衣化虚拟形象中实现的,随后通过SMPL-X序列驱动该形象,并将其按度量校准对齐到重建的背景点云中。该代理建立了稳健的结构基础,具备优越的纹理密度和运动完整性。我们的代理锚定视频DiT利用这一稳健的结构基础作为主要几何锚点,确保合成逼真视频严格受限于预设轨迹和物理合理的形变。得益于4D代理固有的可编辑性,TryOnCrafter支持多种下游应用,包括人体重定位、“子弹时间”特效以及360度轨道视角浏览。
艺术字(WordArt)具有高度自定义的字体、纹理和布局,这使得面向艺术字的场景文字识别(WATER)比通用场景文字识别(STR)更具挑战性。现有的STR数据集和方法通常基于常规场景文字和固定模板输入,难以扩展到WATER任务。为此,我们从数据和模型两方面推进该任务。在数据方面,我们构建了包含200万样本的合成数据集WATER-S,其规模相比现有艺术字数据提升了数百倍。WATER-S由两个互补子集构成:一个通过升级后的渲染管线(SynthWordArt)生成,提供高度精确且可控的合成艺术字数据;另一个则结合Qwen3-VL进行提示挖掘与Z-Image进行图像合成,提升了真实且多样数据的覆盖率。在模型方面,我们提出WATERec模型。该模型采用支持任意形状输入的视觉编码器与自回归解码器来建模复杂布局,从结构上突破了固定模板STR在艺术字上的瓶颈。实验表明,该架构优于以往的STR方法,在艺术字等不规则文本上达到了最先进性能。结合从现有真实STR数据中精心整理的WATER-R数据集,我们的强基线方法在新合成数据与模型设计下,在WordArt-Bench上达到90.40%的准确率,大幅超越通用型及OCR专用型视觉语言模型。代码与数据已开源至 https://github.com/YesianRohn/WATER。
同策略蒸馏(OPD)通过让学生模型在其自身生成的输出上训练来提升大语言模型的推理能力,但标准OPD对所有学生生成输出(SGO)一视同仁,忽略了它们的信息量差异。我们在受控过滤实验中观察到一致的非对称性:在OPD和同策略自蒸馏(OPSD)中,仅使用错误SGO进行训练的效果优于仅使用正确SGO。进一步分析表明,仅使用正确SGO训练的模型倾向于生成更短的推理链,且反思行为较弱;而错误SGO则能更好地保留模型能力边界附近的探索性推理。为利用这一信号而无须生成包含完整答案的轨迹,我们提出ReNIO(Reweights Negative trajectory Importance for LLM On-policy distillation),即对大语言模型同策略蒸馏中的负轨迹重要性进行重加权。通过利用学生与教师的概率比,ReNIO能识别导致错误推理链的关键词元,并将其信息聚合为归一化的样本权重,从而在无需观察最终答案正确性的情况下,天然赋予可能的负轨迹更大权重。由于ReNIO仅使用基于前缀的条件词元概率,它保留了OPD在前缀训练上相对于完整轨迹强化学习的优势。在数学推理和代码生成任务上,ReNIO均能改进OPD和OPSD,在数学推理基准测试中,Qwen3-1.7B和R1-Distill-Qwen-7B的代表性相对增益分别达到8.90%和10.00%。代码仓库:https://github.com/BDML-lab/ReNIO。
获取外部知识对于解决现实世界任务至关重要,但当查询与其相关知识之间的关系涉及超越表面语义或词汇匹配(例如依赖于同一定理的数学问题或需要深度推理的编码任务)的隐式复杂推理时,这仍然具有挑战性。现有方法主要依赖于查询端推理(例如查询改写),这引入了显著的在线延迟,并且未充分利用在知识语料库本身(即索引端推理)上进行推理的机会。本文提出RL-Index,一种代理式索引框架,它将检索索引推理形式化为一个强化学习问题。RL-Index不进行查询时的推理,而是将推理转移到索引阶段,通过用大型语言模型生成的推理依据增强文档,这些推理依据明确编码了隐式的查询-知识关系。为了优化这些推理依据的质量,我们采用组相对策略优化(GRPO),并使用检索相似度作为可验证的奖励信号,从而能够直接优化索引决策以提高检索效果。在BRIGHT基准上的大量实验表明,RL-Index持续提升了检索和下游问答性能,同时显著降低了在线推理延迟。此外,学到的推理依据增强方法能够泛化到不同的检索器和生成器,突显了其作为跨不同检索系统的即插即用索引策略的鲁棒性。
"少说废话,省略语法,节省令牌。"这种穴居人风格被广泛推广为降低推理成本的方法,但其实际效果取决于压缩的是哪个通道(用户的提示还是模型的响应)。我们提出Cavewoman,一个双通道评估协议,该协议对每次生成的任务准确性、实现的实际单次成本以及模型无约束参考文本的一致性进行评分。我们在五个数据集上使用五个缩减级别评估了八种模型,并在相同项上测量两个通道的结果。输出压缩降低了大多数API模型的实际成本(每个模型1.4-2.4倍,最佳情况下可达3倍),且在公共定价下所有四个开放权重模型均有此效果。输入压缩则产生相反效果,严格意义上的双输:它不仅没有降低成本,反而提高了净成本(五个基准平均约1.15倍,最差数据集上达1.8倍,更强压缩下达2.7倍),因为模型会通过更长响应来补偿,即使准确性急剧下降。在同一设置下,表层文本与无约束参考出现分歧:在非推理模型上,约一半的生成内容虽然正确,但其表层文本不再蕴含模型自身的无约束基准生成内容。这种分歧在长度控制重评分、多重比较校正以及互补语义度量的重复验证中仍然存在。代码和数据可在 https://github.com/danielle34/cavewoman 获取。
现有低比特KV缓存量化器通常将每个缓存的键视为扁平向量。然而,在旋转位置编码(RoPE)下,键对未来注意力logit的贡献可分解为基于位置的二维频率块之和。这使得键缓存量化成为一个块级位分配问题:高能RoPE块对量化误差更敏感,应分配更多比特。我们提出Block-GTQ,一种基于TurboQuant-MSE(TQ-MSE)构建的、对RoPE感知的键缓存位分配器。对于每一层和KV头,Block-GTQ为每个RoPE块计算无标签能量分数,并通过边际增益贪心地分配整型位宽。在匹配的K/V位预算下,Block-GTQ在包含十个模型的诊断面板上更好地保留了RoPE查询-键logits,在2和3 b/dim的仅键量化条件下,每层平均绝对误差(MAE)降低32-80%,并在全部367/367层比较中优于均匀TQ-MSE。这些保真度提升转化为更强的下游长上下文检索、理解和推理能力。在Llama-3.1-8B-Instruct上采用K2V2配置时,Block-GTQ将六任务NIAH平均值从70.6提升至97.4,LongBench-EN平均值从36.87提升至53.31。在AIME 2024/2025上使用DeepSeek-R1-Distill-Qwen-7B,且无fp16近期键缓冲区时,Block-GTQ在K3V2配置下得分为51.7/37.5,接近fp16的54.2/37.9,而均匀TQ-MSE则崩塌至0.0/0.0。我们进一步实现了打包缓存服务路径。在单块H800 GPU上使用Qwen2.5-3B-Instruct,打包K3V3实现了3.24倍KV缓存压缩,质量与fp16相当,在128K上下文下比fp16 FlashAttention2快1.34倍,峰值内存从56.31 GB降至19.85 GB,并在fp16内存溢出的256K和512K上下文下仍保持可行。代码已开源至 https://github.com/JIA-Lab-research/blockgtq。
随着大语言模型智能体越来越多地自主选择工具,它们在具有不同权限的工具之间做出的选择变得与安全相关。然而,先前的工具选择研究侧重于与安全无关的元数据偏好,使得对权限敏感的选择问题尚未得到充分探索。为填补这一空白,我们研究了过度授权工具选择问题,即智能体在存在功能足够且权限更低的替代工具时,仍然选择或升级到更高权限的工具。我们推出了ToolPrivBench,用于评估智能体在存在权限更低且功能足够的替代工具时,是否仍会选择更高权限的工具,并衡量其在初始选择以及工具出现短暂故障后的升级行为。在八个领域和五种重复出现的风险模式中,我们发现过度授权工具选择在主流大语言模型智能体中普遍存在,并且工具短暂故障会进一步加剧这一问题。我们进一步发现,通用安全对齐并不能可靠地迁移到最小权限工具选择上,而提示级别的控制在工具短暂故障情况下只能提供有限的缓解效果。因此,我们引入了一种权限感知的后训练防御方法,教导智能体优先选择功能足够且权限更低的工具,仅在必要时才进行升级。我们的缓解实验表明,这种防御方法在保持通用能力的同时,显著减少了不必要的高权限工具使用。
代表用户行为的人工智能代理在不断做出决策,而要让用户信任这些代理,其决策必须与用户的真实意图相一致。隐私是代理对齐中的一个重要问题:代理发送的每一条消息、帖子或工具调用,都需要根据上下文判断哪些信息适合分享、分享给谁以及在何种条件下分享。由于这些判断依赖于社会期望和规范,人类判断不仅标记隐私侵犯行为,更帮助界定隐私侵犯本身。现有工作依赖不可靠的代理指标进行训练和评估,而我们则将人类判断置于代理隐私对齐的核心位置。我们提出PrivacyAlign数据集,包含1,350个样本,来自599位标注者对当前大语言模型实际泄露隐私的多样化场景提供的3,516条详细标注,并以此为基础将人类隐私规范融入对齐训练和自动评估。基于这些标注,我们首先证明,若让作为评判者的大语言模型参考同一提示下人类对参考响应的标注和解释进行条件判断,其评判结果会更为可靠。接着我们引入标注条件奖励建模,在强化学习过程中利用这些标注对新响应进行评分。实验表明,使用该奖励训练的小型开源权重代理能更好地与人类隐私规范对齐,在PrivacyAlign及现有代理隐私基准测试上均取得显著提升。
最新立体匹配研究虽取得了显著的精度提升,但往往依赖大模型、高计算量或基模型先验,导致难以部署于资源受限平台。相比之下,高效立体模型虽推理速度更快,但通常被认为零样本泛化能力较弱。本文通过提出Lite Any Stereo V2(LAS2)系列超快模型,挑战了这一假设。LAS2从架构与训练两个维度进行优化:架构层面,我们重新审视实际部署场景下的高效立体设计,提出仅基于2D的代价聚合框架,以实际推理延迟而非理论计算量为优化目标;训练层面,我们开发了三阶段策略,融合合成数据监督、自蒸馏与真实世界知识蒸馏。为提升真实世界伪标注的可靠性,进一步引入伪标签过滤与误差限幅操作,实现从合成数据到真实数据的平滑迁移。我们将LAS2实例化为包含多种效率预算的前馈变体与高精度迭代变体的模型家族。大量实验表明,LAS2在保持显著低延迟的同时,达到了高效立体方法中的最优精度。具体而言,LAS2-H在零样本综合性能上超越迭代方法Fast-FoundationStereo,且在H200与Orin平台上分别实现1.8倍和2.7倍更快的推理速度。项目页面、演示与代码见https://tomtomtommi.github.io/LiteAnyStereoV2/。
越狱攻击揭示了经过对齐的大型语言模型存在一个持久性弱点:精心设计的提示能引发违反安全策略的响应,即使模型经过了安全训练。尽管大多数防御手段在提示或输出层面起作用,但有害意图如何在模型内部表征中被编码仍不明确。我们通过使用对数几率透镜分析冻结LLM各层的词元级预测熵轨迹来探究这一问题。研究发现,提示层面熵的静态聚合统计量(如均值、方差)携带的判别信号极弱,而刻画熵在词元位置间演化趋势的特征(例如基于单调排名的趋势分数)则更具信息量。重要的是,该信号在模型深度上并非均匀分布:它集中于中间层,并在最终层退化,表明越狱相关结构在中间网络表征中最为显著,而非输出头部。在多个模型(Llama、Qwen、Gemma)和对抗性基准测试中,这些熵动态特性无需额外训练即可提供架构一致的区分能力。综合来看,我们的发现表明越狱行为体现在结构化的中间层不确定性动态中,阐明了哪些熵衍生特征编码了有害意图,以及该信号在网络中何处最为显著。
如今,推理模型通过使用思考令牌,在基准测试中取得了比指令微调版本更强的性能。人们普遍认为,这种更具"审慎性"的模式应当能够提升对齐性与安全性——通过为模型提供一个安全空间,使其能够斟酌计划中对用户请求的回答是否违反安全准则。但我们发现,这一直觉并不总是成立。在GPT-OSS、Qwen、Olmo和Phi系列等前沿开源权重推理模型中,我们发现,在可见思考过程开始之前,通过已训练完成的头部分类器对首个令牌的隐藏表示进行分析,即可高度预测模型最终的拒绝/遵从结果(AUROC值达0.84-0.95,预测拒绝/遵从的平衡准确率约为88%)。事实证明,思考过程更接近前缀补全而非审慎修订:尽管文本层面看似存在审慎思考(约74%的文本层审慎思考发生时,响应分布已锁定在拒绝或遵从的单一方向),但最终结果在思考过程的前20%阶段后极少发生改变。我们还发现,现有基于推理阶段和训练的干预措施,尽管以诱导审慎思考为目标,却主要导致模型行为转向过度拒绝,同时抑制了本已稀少的审慎信号。我们的研究结果表明,当前推理模型的安全行为远非通常假设的那般审慎,并凸显了开发真正引发审慎思考方法的必要性。
视频生成模型在生成逼真视频方面能力日益增强,但仍难以生成遵循基本物理定律的视频。雪上加霜的是,目前缺乏可靠的细粒度评估方法来定位和具体说明视频中违反物理定律的问题。为此,我们引入了物理问题场景图(PQSG),一种基于层次化问题的评估流程。PQSG通过利用视觉语言模型(VLM)并辅以高质量的上下文示例,生成基于图结构的问题层级,从而从对象、动作以及物理定律遵循度三个方面检验生成视频与提示词的一致性。通过将问题表示为图结构,PQSG在问题间引入了逻辑依赖关系,确保每个查询在语境上有效。此外,PQSG还能提供细粒度的评估,明确视频的哪些质量特性违反了物理合理性约束。我们通过创建FinePhyEval数据集来验证PQSG,该数据集包含基于物理的提示词以及来自多种先进视频生成模型(Sora 2、Veo 3和Wan 2.1)的对应生成视频,每个视频均经过多类别人工标注。利用FinePhyEval,我们测量了PQSG细粒度得分与人工判断之间的相关性,结果表明其整体相关性高于以往工作。我们还发现,PQSG对闭源模型在物理真实性方面的排名高于Wan 2.1。最后,我们展示了FinePhyEval中提供的标注也可用于子任务评估:我们对两个强大的VLM在生成问题和回答问题方面进行了基准测试,发现虽然模型能生成类似人类的问题,但在回答问题的准确性上仍不及人类水平。
长时域智能体依赖上下文管理:系统对旧令牌进行压缩、摘要和驱逐,使任务能在有限窗口之外持续进行。只有当被丢弃的信息不再需要或已被内化时,这种管理才是安全的。计划(plans)是其中的压力测试案例:它们最早被写入,用于多个步骤,也最先被驱逐。我们引入重放配对(replay pairing)诊断方法,该方法在保留与移除历史计划这两种条件下运行相同轨迹,并测量隐状态余弦距离。在Llama-3.1-70B上,计划信号在计划写入后一步达到0.453的峰值,随后经过单次行动-观测步骤便衰减4.1倍;HotpotQA上衰减12.4倍。这证明标准LLM智能体并未将计划作为持久状态向前传递,而是依赖计划保留在上下文中。L32层探针将此衰减检测为诊断指标,但并不证明其自身能读取计划内容。推理模型引入了一个测量混淆:其`<think>`轨迹会重新推导计划内容,因此标准剥离操作会在剥离条件下留下计划证据。我们将此称为推理轨迹混淆(reasoning-trace confound),并通过严格剥离(strict stripping)解决——仅从剥离运行中移除先前的`<think>`块。该方法在样本内恢复了步骤+1信号+163%,在样本外恢复+153%,而对非推理模型Llama的影响不显著(+4.8%)。在DeepSeek-R1-Distill-Llama-70B上,基于Llama训练的探针以AUROC 0.748(p=6e-4)迁移,而R1专属探针达到1.000,表明R1在不同隐状态方向上编码计划信号。最后,压缩压力测试揭示了实际代价:简单计划驱逐使ALFWorld成功率下降34.7个百分点,而探针门控的重新浮现无法恢复该性能。本文的贡献在于提供了一套测量与压力测试框架,证明智能体关键信息可能驻留于上下文而非持久保存。上下文管理至关重要,但仅保护计划远远不够。
持续测试时自适应(CTTA)旨在通过在线无标签数据适应不断变化的目标域,从而维持模型性能。然而,实际部署中常因隐私或许可限制无法保留源数据集,而纯无源CTTA方法在长期分布偏移下易变得不稳定,面临自训练错误累积与灾难性遗忘问题。我们提出DO-ALL(一次蒸馏,终身自适应)——一种即插即用框架,通过数据集蒸馏(DD)以紧凑且隐私友好的形式重新利用源信息。部署前,DO-ALL执行DD以生成少量合成蒸馏锚点,概括源分布特征。自适应阶段,每个目标样本与语义最匹配的锚点对齐,该锚点通过源回放、表征对齐及流形平滑正则化为各类CTTA提供稳定参考。DO-ALL可无缝集成至现有CTTA算法中,在CIFAR100-C、ImageNet-C及CCC基准上持续提升长期鲁棒性。这证明了利用DD实现无需保留原始源数据的稳定持续自适应的潜力。代码已开源:https://github.com/blue-531/DOALL。
工具调用与结构化输出是现代Agent系统的两项核心能力,然而在联合部署条件下两者间的交互机制尚缺乏充分理解。本文报告了在生产级Agent系统中观察到的可复现现象:当工具调用与JSON Schema约束同时启用时,多个开放权重模型在保持高模式合规性的前提下停止调用工具。我们将此行为称为工具抑制。通过跨多个模型系列与部署环境的受控实验,我们在联合约束条件下稳定复现了工具抑制现象,而单独评估工具执行与模式合规性时,两者均保持正常功能。进一步分析表明,JSON Schema约束被编译为基于语法的令牌掩码,导致工具调用令牌在解码过程中变为不可达状态,这为观察到的行为提供了实现层面的解释。为阐释该现象,我们提出约束优先级反转假说,该假说认为在多约束条件下,模式满足可能主导动作选择行为。需明确的是,CPI假说是基于观测证据的行为学解释,而非经证实的内部机制。为缓解此问题,我们提出透明双遍执行策略——一种通过解耦工具执行与模式约束响应生成的推理时方案。实验表明,该方法可在无需模型重训练的前提下恢复工具调用能力,同时保持结构化输出保证。这些发现提示,单独评估工具使用与结构化输出可能忽视生产级Agent系统中的关键可靠性问题。代码、数据及相关文档将发布于 https://github.com/Fzsama/Constrain-Tax-26-06.git。
对AI系统的信任通常建立在其运行机制的解释之上,人们据此预测系统对新输入的行为。对于大型推理模型(LRM)而言,这种传统路径尤其难以遵循:针对单个token生成的解释方法无法自然地推广至长序列轨迹,而轨迹本身若作为自然语言阅读往往不够忠实。我们提出一种绕过解释步骤的替代方案:将行为预测视为可学习任务,训练基于单条推理轨迹运行的行为预测器,使其做出通常需要通过解释才能获得的同类预测。该预测器的训练数据通过查询LRM获取(无需人工标注),其推理过程仅需单次前向传播。我们在两个任务上实例化该方法:预测LRM重复运行时答案的重复概率,以及输入部分删除后答案的变化。我们在三个不同的推理数据集上对这两个任务进行评估,发现训练后的行为预测器在读取相同轨迹时,其准确性优于作为朴素阅读者的GPT-5.4和Claude Opus-4.6,而推理成本仅为后者的极小部分。我们还发现,对主干网络进行端到端微调并初始化为目标LRM是取得优异性能的必要条件。这些结果表明,推理轨迹包含关于LRM未来行为的信息,其丰富性远超简单阅读所能传达的范畴。
随着表现力丰富的文本转语音(TTS)和语音转换(VC)系统越来越多地生成非言语发声(NVV)以增强自然度,可靠的说话人验证(SV)对于客观评估言语与非言语片段之间的身份一致性变得至关重要。然而,当前SV系统对NVV的泛化能力较差,且针对NVV数据进行微调会导致言语性能的灾难性遗忘。我们首次对10种NVV类型进行了系统性研究,并提出一种框架,将冻结的Data2Vec自监督特征与ECAPA-TDNN相结合,并通过带有学习型领域感知路由的专家混合(MoE)模块加以增强。利用预训练教师模型对言语输入施加条件蒸馏损失,以保持言语到言语的准确度,同时通过对比损失弥合言语与NVV之间的领域差距。我们的方法在预训练基线基础上,将言语到NVV的等错误率(EER)从38.93%降至22.66%,并通过蒸馏将言语EER从13.17%提升至9.24%。