每日精选AI研究论文及翻译
当前如OpenClaw等现代开放世界智能体虽展现出强大的跨环境执行能力,却也引入了广泛的新型安全风险源。与此同时,前沿AI模型的快速发展大幅降低了攻击门槛,使现有智能体对齐框架难以满足实际部署需求。为应对这些新兴威胁,我们提出了一种轻量化、可扩展的智能体安全对齐框架。具体而言,我们更新了智能体安全分类体系,以涵盖Codex和OpenClaw执行场景中的新兴风险;在此基础上构建了基于分类学引导的数据引擎,并利用影响函数净化技术,仅需约1000个样本即可训练出轻量级AgentDoG 1.5系列模型(参数规模为0.8B、2B、4B和8B),性能与GPT-5.4等领先闭源模型相当。基于AgentDoG 1.5,我们构建了高效的智能体安全监督微调(SFT)与强化学习(RL)训练环境,将Docker级环境中的部署开销降低了两个数量级。最后,我们将AgentDoG 1.5作为免训练的在线护栏,用于实时安全管控。大量实验结果表明,AgentDoG 1.5在多样化且复杂的交互式智能体场景中达到了最先进性能。我们已开源所有模型与数据集。
具身智能通常通过针对操纵、导航等单一任务的专用模型进行研究,导致能力碎片化,且在任务、环境及机器人本体间的泛化能力有限。本文研究异构的具身决策问题能否统一在单个视觉-语言-动作模型之中。我们提出Qwen-VLA,一个统一的具身基础模型,它将Qwen的视觉-语言建模栈从感知、理解、推理扩展到连续动作和轨迹生成,通过基于DiT的动作解码器实现。Qwen-VLA采用大规模联合预训练方案,在多样化数据源上进行训练,包括机器人操纵轨迹、人类第一人称演示、合成仿真数据、视觉-语言导航数据、轨迹中心化监督以及辅助的视觉-语言数据。为支持多种机器人平台,我们引入具身感知提示条件化,其中机器人特定的文本描述指定当前本体和控制约定。我们进一步将操纵、导航和轨迹预测统一为一个动作-轨迹联合预测框架,从而在机器人形态、任务族和环境之间实现可迁移的视觉定位、空间推理和连续动作生成。在操纵、导航和轨迹中心化基准上的实验表明,Qwen-VLA在场景布局、背景、光照、物体配置和机器人本体变化下均展现出一致的多任务性能和分布外泛化能力。Qwen-VLA-Instruct在LIBERO上达到97.9%,在Simpler-WidowX上达到73.7%,在RoboTwin-Easy/Hard上达到86.1%/87.2%,在R2R上OSR为69.0%,在RxR上SR为59.6%,在真实世界ALOHA实验中的平均OOD成功率为76.9%,在DOMINO动态操纵中零样本成功率为26.6%。
现实世界的信息需求要求访问结构多样的知识源,从非结构化文本、关系表格到知识图谱和属性图。然而,现有的检索器一次只能在一个查询语言的固定格式下操作单一知识源,导致可用知识的广阔图景被不兼容的接口割裂。试图统一这些知识源的自然做法是将它们压缩到共享空间中,但这会抹去每种知识源独有的结构优势(如模式、本体、组合操作算子),而这些正是赋予其表达能力的核心。因此,对多样化知识的有效检索并非要求同质化,而是需要一个能尊重每种知识源自身特性的统领层。为此,我们提出了OmniRetrieval框架,它可接收任意自然语言查询,识别合适的知识源,并将源原生查询分派至其原生执行引擎。在涵盖文本、关系和图结构知识源、包含13个数据集和309个不同知识库的广泛基准测试中,OmniRetrieval超越了单源基线方法,证明它能够作为异构知识源的通用接口,同时保留每种知识源的结构差异所赋予的价值。
定制图像编辑旨在利用有限配对数据,通过低秩适配(LoRA)为预训练扩散模型配备特定视觉效果。随着所需效果的增多,存储和动态加载大量效果LoRA会显著增加部署开销。此外,现有流程通常将这些效果LoRA与加速模块级联以实现快速生成,这会导致严重的参数干扰,引发概念渗漏和风格退化。我们提出CollectionLoRA,一种多教师同策略蒸馏框架,能够将多达50种不同效果LoRA的概念以及少步生成能力蒸馏到单个LoRA中,从根本上解决特征干扰问题并显著降低部署成本。具体而言,该方法引入了:(i)概率双流路由机制,使模型在训练过程中随机切换数据源,有效增强其在未见场景中的泛化能力;(ii)非对称正交提示策略,在提示空间内实现概念隔离;(iii)由粗到细蒸馏目标,以缓解教师模型与学生模型之间的分布差异。大量评估表明,CollectionLoRA将所有定制效果和少步生成蒸馏到单个LoRA中,在降低部署开销的同时,实现了与独立训练教师模型相当或更优的概念保真度。
近期,视频扩散基础模型在高质量视频生成方面取得了显著进展,但将其转化为实时交互式视频世界模型仍具挑战性。交互式世界模型需要可控、因果且低延迟的推演,这在实际应用中要求完整的流程,涵盖数据构建、可控微调、自回归训练、少步蒸馏和流式推理。在本工作中,我们提出了minWM,一个用于构建实时交互式视频世界模型的全栈开源框架。minWM提供了一个端到端流程,将现有的双向T2V/TI2V视频基础模型转化为相机可控的少步自回归世界模型。具体而言,minWM首先微调一个带有相机控制的双向视频扩散模型,然后应用因果强制/因果强制++流程(包括AR扩散训练、因果ODE或因果一致性蒸馏,以及非对称DMD),将其蒸馏为低延迟推演的少步自回归生成器。该框架模块化且架构可扩展:我们在代表性开源骨干(包括Wan2.1-T2V-1.3B和HY1.5-TI2V-8B)上进行了实例化,涵盖了基于交叉注意力的条件注入和MMDiT风格架构。minWM还支持将现有视频世界模型(如HY-WorldPlay)适配到新的数据分布、训练方案和延迟目标。除了发布可运行脚本、检查点、文档和推理代码外,我们还在相机轨迹质量、可控性训练步数和最小批量需求方面提供了实用的消融研究。我们希望minWM成为构建和适配实时交互式视频世界模型的可复现且可扩展的配方。 项目页面:[https://github.com/shengshu-ai/minWM](https://github.com/shengshu-ai/minWM)
随着视频扩散模型(VDM)向世界模型迈进,一个关键问题随之浮现:它们是否真正理解因果关系,抑或只是过度拟合了统计性的时间模式?现有的基准测试大多依赖合成数据,但由于模拟到真实的差距,限制了其在现实世界中的泛化能力。我们提出YoCausal,这是一个受认知科学中“预期违反”(VoE)范式启发的两级基准测试。通过以零成本对真实世界视频进行时间反转,将其作为自然的反事实样本,YoCausal建立了一种可任意扩展的评估协议。第一级引入了反转惊奇指数(RSI),通过去噪损失量化时间箭头感知。第二级引入了因果关系认知指数(CCI),利用视觉语言模型(VLM)将数据集分层为因果与非因果子集,从而将真正的因果推理与时间偏差区分开来。对13个最先进的VDM的评估表明,感知时间箭头并不等同于理解因果关系,并且与人类水平的因果认知相比,仍存在显著差距。
图像生成模型已从基于文本条件的像素合成,演进为具备视觉理解与工具调用能力的多模态代理。然而,现有代理仍受制于底层黑箱式图像模型,其工作流程陷入反复改写提示词以优化生成的循环,缺乏直接操控画布的机制。本质上,大语言模型作为真正"画笔"实现精准视觉构建的潜力尚未充分发挥。本文提出GenClaw,一种代码驱动的代理式图像生成范式,使代理能像人类艺术家般创作:先构思,再勾勒,最后着色。具体而言,代理首先通过搜索与推理构建概念知识与上下文语境;随后利用代码(如SVG、HTML、Three.js)生成可执行的视觉草图;最后借助图像生成模型补充纹理、材质与逼真度。在此流程中,代码作为连接语言推理与像素合成的可控中间画布,将编程逻辑与生成模型的视觉表现力无缝融合。通过将图像生成从黑箱范式转变为类似人类创作的分阶段过程,GenClaw为构建高可控性与可解释性的视觉生成系统提供了可行方向。
视频大语言模型在视频理解任务中展现出强大能力,但其实际部署仍受限于处理海量视觉令牌导致的效率低下问题。尽管近期方法在保持与全令牌基线相当精度的前提下实现了极低的令牌保留率,但多数方法仅在预填充后期进行压缩,视觉编码器的效率仍未得到优化。本文首先证明,视觉编码在首令牌生成时间中占据较大比重。因此,仅对视觉编码器输出的令牌进行压缩仍存在大量优化空间。基于这一发现,我们提出EarlyTom——一种无需训练的令牌压缩框架,通过在视觉编码器内部实施早期视觉令牌压缩,显著降低首令牌生成时间并提升吞吐量。此外,我们引入解耦空间令牌选择策略,以提升整体压缩效果。在单个NVIDIA A100 GPU上,EarlyTom为LLaVA-OneVision-7B模型实现首令牌生成时间最高降低2.65倍、FLOPs最高降低61%,同时保持与全令牌基线相当的精度。这些改进显著提升了视频大语言模型在实际生产场景中的部署可行性。
大型语言模型(LLMs)必须持续学习并更新知识,才能在动态的现实环境中保持有效性。尽管低秩适配(LoRA)被广泛用于此类记忆更新,但现有研究主要依赖定性下游评估,对精确参数记忆的定量容量限制及底层动态机制仍缺乏深入探索。为填补这一空白,我们利用LoRA作为潜在空间中的受控记忆容量探针,系统量化精确参数记忆。我们提出了参数记忆定律,这是一个稳健的幂律关系,将损失降低ΔL与有效参数量及序列长度关联起来。在词元级别,细粒度分析揭示了确定性相变,表明在贪婪解码条件下,预测概率p > 0.5是逐字回忆的充分条件。基于这些发现,我们提出了MemFT,一种阈值引导的优化策略,能够动态地将训练预算重新分配给低于阈值的词元。实验评估表明,MemFT能够提升记忆保真度与效率。代码将在https://github.com/zjunlp/ParametricMemoryLaw公开。
基于激活的控制通过在推理过程中干预大型语言模型(LLM)的内部表征来引导其行为,已成为一种控制人格和风格等行为的有效范式。然而,现有方法通常依赖固定的引导方向或针对特定任务的干预模块,难以适应细粒度概念和组合约束。我们提出UniSteer,一种文本引导的激活流匹配模型,该模型从自然语言条件中学习残差流激活的条件分布。UniSteer并非为每种目标行为拟合独立的干预方案,而是在激活空间中学习一个通用的条件速度场。在推理时,UniSteer通过将源激活部分传输至潜在状态并执行流反转,在目标文本条件下重新生成该激活,然后将其重新注入冻结的LLM。相同的条件模型支持基于激活空间的分类,即选择重构能量最低的文本标签。在三个目标LLM上的实验表明,UniSteer为行为控制、真实性引导、细粒度概念引导、多约束指令遵循以及激活空间分类提供了统一接口。
视觉-语言模型(VLM)在空间推理基准测试中表现出色,但这究竟反映了其具备结构化的三维理解能力,还是依赖于自然图像中的统计捷径,目前尚不明确。我们提出了一种表征级分析框架,通过构建最小对比对来衡量空间轴在VLM嵌入中的组织方式与解耦程度。对多个模型家族的分析揭示了一个一致的垂直距离纠缠现象:模型将垂直图像位置与距离混为一谈,这反映了自然照片的透视偏差。这种偏差导致视角一致样本与反启发式样本之间存在显著的准确率差距,并且即使整体基准准确率随着数据规模扩大而提升,这一偏差也会加剧。我们进一步证明,在基准测试中得分相近的模型,其内部表征可能不同,并且这些差异能够预测模型在多种空间推理基准测试中的准确率与鲁棒性。为将该偏差与评估集偏差相隔离,我们提出了SpatialTunnel——一个旨在通过消除自然图像中常见相关性来暴露空间捷径偏差的合成基准测试。实验证实,该纠缠是模型内在的特性,且空间轴分离良好的模型展现出更强的鲁棒性,这表明结构良好的空间表征能够使模型在多样化的基准测试中实现更可靠的空间推理。代码和基准测试已发布在项目页面:https://cheolhong0916.github.io/whyfarlooksup.github.io/。
联合音视频生成旨在合成时间同步且语义一致的视听内容。然而,现有开源方法主要依赖两种设计:一种是基于后对齐的双塔架构,另一种是将文本上下文、音频和视频混合在共享空间中的全统一三模态设计。前者削弱了细粒度的音视频协同演化,后者则将语义条件与底层同步耦合。为克服这些局限,我们提出NAVA——一种面向联合音视频生成的原生视听对齐框架。NAVA基于上下文条件化的原生视听对齐:首先在专用交互空间中建立音视频对应关系,再利用外部上下文约束联合去噪过程。具体而言,NAVA采用"先对齐后融合"的MMDiT架构实现,该架构从模态感知的音视频对齐过渡到模态共享的联合去噪。此外,我们引入上下文音色条件机制,将参考音色线索与对应语音片段关联,以实现可控的语音音色。在Verse-Bench和Seed-TTS上的实验及用户研究表明,NAVA仅用6.3B参数即可实现卓越的视频质量、精确的视听同步、具有竞争力的音频质量,以及更强的参考音色可控性。
视觉语言模型(VLM)在各类理解与推理任务中取得了显著进展,这得益于大规模图文训练旨在实现多模态融合。理想情况下,将文本问题替换为其渲染图像形式,模型性能应基本不受影响。然而在实践中,这种模态替换却导致了性能严重下降。我们将这种“载体敏感性”问题归因于当前训练语料中固有的偏置。在图像描述、VQA、OCR以及网络来源的交错数据等主流数据集中,文本与图像通常被组织为截然不同且不对称的角色:文本作为语言查询,图像作为视觉参考。这种数据偏置导致VLM对不同模态的信息获取呈现明显偏好。因此,VLM无法在文本与视觉载体上对齐语义等价内容的表征,使得模型推理在模态替换下变得脆弱。为解决此问题,我们提出局部模态替换(Local Modality Substitution, LoMo),这是一种轻量级、与架构无关的数据整理范式,旨在为语义等价的文本与图像载体之间的跨模态表征不变性提供监督。LoMo通过将单模态提示重新组织为无缝交错的图文序列来实现这一点。它动态选择目标文本片段,并将其重构为渲染图像,从而在“文本-图像-文本”载体间保持相同语义。在13个多样化多模态基准上的大量实验表明,LoMo显著提升了整体多模态推理能力,并实现了更深层次的跨模态融合。具体来说,它在多个基础模型上均取得了一致提升:在LLaVA-OneVision-1.5-8B上相比标准SFT提升了2.67个百分点,在Qwen3.5-9B上提升了2.82个百分点。
强化学习(RL)后训练已被证明能够提升大型语言模型(LLMs)的推理能力。然而,在RL后训练中数据污染问题却鲜有探索,这可能会损害训练过程本身的泛化能力和评估可靠性。现有检测方法主要依赖于输出级信号(如似然度或熵),但这些方法对于经过RL训练的模型而言并不可靠,因为RL通过轨迹级奖励塑造行为,而非基于标记似然度。我们提出LaRA,一种用于检测RL后训练LLMs中数据污染的层表示分析框架。LaRA引入三项互补指标,分别衡量在受控扰动下的扰动敏感性、方向坍缩度和局部表示刚性。我们发现,数据污染会在各层间产生渐进式的几何偏差,包括扰动敏感性增强、方向坍缩加剧以及局部刚性提升。基于我们的发现,我们还开发了一种污染检测协议,该协议跨层和跨指标聚合表示级偏差。在经RL训练后的推理模型上的实验表明,我们的协议在污染检测方面优于现有的输出级基线方法。
为大型语言模型配备显式技能已成为一种有前景的范式,使自主代理能够解决复杂任务。代理技能本质上可分为用于广泛认知迁移的通识技能和用于动态执行的特定任务技能。然而,现有的基于技能的强化学习方法通常强制在完全外化(会导致高昂的上下文开销)与完全内化(可能导致过拟合和知识冲突)之间做出僵化选择。为解决这一困境,我们提出Skill0.5,一种新型的智能体强化学习框架,通过将通识技能内化与特定任务技能利用相结合,明确区分技能处理方式。在动态、难度感知路由器的驱动下,Skill0.5将任务分流至不同的掌握层级,以应用定制化的优化策略:它通过特权蒸馏内化通识技能,为困难任务构建认知基础;同时在简单任务上使用诊断探测来惩罚捷径行为并强制利用特定技能。在ALFWorld和WebShop上的实验表明,Skill0.5优于基于记忆和基于技能的强化学习基线,在分布内和分布外场景中均实现了性能提升。
解释密集检索器为何赋予高相关性分数仍然具有挑战性,因为检索决策是通过不透明的高维嵌入做出的。现有解释通常侧重于表面信号,如词汇匹配、词元对齐或事后文本理由,因而对塑造密集检索行为在嵌入层面的潜在因素提供的见解有限。我们提出Xetrieval,一种面向嵌入层面的密集检索可解释性机制框架。Xetrieval首先引入轻量级推理内化器,通过单次前向传播直接在嵌入空间中近似思维链推理,在避免昂贵的自回归生成的同时,用推理导向信息丰富句子嵌入。随后,它将这些推理增强的嵌入分解为稀疏、可人工解释的特征,每个特征关联一个连贯的自然语言描述。通过聚合多个文档视角上的稀疏特征重叠,Xetrieval提供了单个检索决策的特征级解释。在多种检索器和基准上的实验表明,Xetrieval能发现连贯的可解释特征,产生更强的层级干预效果,并支持任务级特征引导。项目页面和源代码可在 https://hihiczx.github.io/Xetrieval 获取。
长程交互要求语言模型管理不断积累的信息:何时更新其状态、何时保持其状态,以及应忽略哪些内容。我们将这一挑战视为上下文信念管理(CBM)问题:在隔离与任务无关的噪声的同时,维护与形式化证据对齐的预测信念状态。为了使CBM可量化,我们引入了BeliefTrack,这是一个涵盖规则发现与电路诊断的封闭世界基准测试,其有限信念空间与符号验证器能够实现精确的逐轮评估。BeliefTrack诊断出三种失败模式:保持失败、更新失败与隔离失败。在多种大语言模型上,基础模型表现出严重的CBM失败,而显式的信念追踪提示仅带来有限改进。相比之下,基于信念状态奖励的强化学习平均降低了70.9%的失败率。进一步探测揭示了这些失败背后的潜在信念状态动态,而表示层面的引导在两个任务上平均将失败率降低了46.1%\footnote{代码即将发布在 https://github.com/zjunlp/CBM。}。
扩散模型在图像合成领域达到了最先进的水平,其生成轨迹本质上表现出谱偏差:早期解析低频全局结构,后期处理高频细节。传统的随机微分方程(SDE)求解器未能考虑这种动态特性,在整个过程中朴素地注入均匀白噪声,从而浪费了有限的能量预算。本文建立了一个数学框架,将SDE推断重新视为一种有针对性的、频率解耦的能量转移过程。基于此框架,我们提出了一种免训练的新型随机求解器——彩色噪声采样(CNS)。CNS不注入均匀白噪声,而是采用一种动态的、与时间步和频率相关的调度策略,将注入能量更高效地分配到结构未解析的频带。通过主动利用模型固有的谱偏差,CNS系统地引导生成分布向真实数据流形靠近。大量实验表明,CNS作为严格的即插即用推理阶段采样器替代方案,在多种架构(SiT、JiT、FLUX)上显著优于标准ODE和SDE基线。在ImageNet-256上,与标准采样相比,CNS实现了无引导FID的大幅降低:SiT-XL/2从8.26降至6.27,JiT-B/16从32.39降至26.69,JiT-H/16从11.88降至8.31,同时在无分类器引导下取得了一致的相对FID改进。项目页面:https://hadardavidson.github.io/CNS/。
密集检索器存在位置偏差,更倾向于将查询相关信息出现在文档开头的文档排在前面,而当信息出现在后面时则会降低检索性能。虽然以往关于密集检索器位置偏差的研究主要集中于架构层面的解释,但本研究探讨了训练数据中证据的位置分布如何影响检索级别的偏差方向。为进行验证,我们构建了合成性的位置定向训练集,其中与查询相关的证据分别出现在文档的开头、中间或结尾,并在位置偏斜和均衡的训练分布下对八个架构各异的预训练模型进行微调。在排序层面,我们观察到所有被检模型呈现出一致的强方向性模式:偏斜的训练分布会偏向对应位置的证据。位置均衡训练可将位置感知基准上的位置敏感性降低57%至87%,同时在我们控制的环境中保持有竞争力的平均检索性能。表示层分析进一步表明,微调通常会重塑学习到的位置偏好,尽管某些模型中仍存在源于架构或预训练阶段的固有倾向。这些结果将训练数据位置分布确立为检索层面位置偏差的主要可控因素,并提示平衡的数据整理可作为实用的缓解策略。
我们推出了CausaLab——一个用于评估基于LLM的智能体进行交互式因果发现的可扩展环境。与先前的评估不同,CausaLab同时考察智能体能否利用因果证据解决问题,以及其答案是否基于忠实重建的因果机制。每一轮实验中,智能体被置于一个合成实验室中:它接收先前的观测记录,对操纵晶体进行干预,并预测由相同机制控制的一个独立反应器晶体的共振频率。隐藏的数据生成过程是一个随机采样的结构因果模型(SCM),因此成功完成任务需要恢复因果图和结构方程,而非依赖先验知识。 实验结果表明,预测与机制恢复之间存在持续差距:在纯观测的6节点设置中,GPT-5.2-high达到了92%的任务准确率,但全边F1分数仅为0.471。混合观测-干预策略可提升结构保真度,而纯干预策略即使对强智能体而言仍具挑战。我们识别出过早停止是一个主要弱点,并证明一致性验证可缓解该问题。因此,CausaLab将预测成功与因果理解分离开来,揭示了当前LLM智能体作为实验因果推理者的局限性。
基于大语言模型(LLM)的智能体在利用外部工具解决复杂任务方面展现出强大能力。然而,现有评估往往忽略工具使用的时间维度,特别是工具响应延迟的影响,且通常局限于单任务场景。在实际应用中,多个任务常需并发执行,整体效率取决于智能体能否在等待工具响应的空闲时间内高效利用时间。我们将这种能力称为异步工具调用。为评估该能力,我们提出AsyncTool——一个用于评估基于LLM的智能体在具有延迟工具反馈的交互式多任务工具使用环境中的基准测试。AsyncTool同时呈现多个异构任务,并在执行过程中模拟真实的工具响应延迟。通过混合数据进化策略,我们构建了一个多样化的异步多任务数据集,涵盖多种场景和工具使用模式。我们在步骤、子任务和任务三个层级评估模型,并引入面向效率的指标来衡量任务协调与完成效率。大量实验表明,延迟的工具反馈给当前智能体带来重大挑战,并导致性能显著下降。能够更好协调任务切换、依赖追踪和状态维护的模型在AsyncTool上表现更优。我们的分析揭示了当前工具使用智能体的关键失败模式,并为设计未来具有更强时间推理与协调能力的系统提供了实用见解。
智能体AI推理的设计空间涵盖两个极端:通常部署在云端、在广泛任务中表现强劲但成本高昂的前沿大语言模型(LLMs),以及成本效益更高、适用于设备端推理的小型语言模型(SLMs)。结合设备端与云端模型的混合多智能体系统(MAS)提供了一个有前景的中间方案,但同时也引入了一个复杂且理解不足的设计空间——在该空间中,任务准确性、货币成本与边缘端能耗紧密耦合;由于缺乏通用设计原则,混合组件虽然并非最普遍的选择,却通常通过针对特定领域的临时决策引入。本研究对该设计空间进行了更系统的考察。我们改编了两种具有代表性的MAS架构以支持混合推理,并探究个体设计选择如何沿能耗、成本与性能的帕累托前沿移动工作点。研究结果揭示了混合MAS设计的微妙图景:尽管SLMs可有效受益于LLMs的协助,但最优架构高度依赖于具体任务,且更高层级的计算能力并不总能转化为更优性能。
大型语言模型(LLMs)推动自主代理从深度搜索(检索简洁的事实性答案)向深度研究(将分散的证据综合成长篇报告)演进。然而,可验证的多模态深度研究仍面临挑战,包括缺乏确定性标准答案的开放式综合需求,以及需要将文本论证与视觉证据交织呈现。我们提出Ptah,一个用于生成交错式报告的多代理框架。Ptah通过规划、研究和撰写阶段,协调从用户查询到渲染网页报告的完整生命周期。在该过程中,专业化代理构建视觉感知计划、收集基于主张的证据、在视觉工作记忆中维护与来源对齐的图像,并通过声明式多模态工具使用编写报告。验证代理作为框架的验收函数,在整个工作流中强制实施事实依据、引文保真度和跨模态一致性。我们还引入PtahEval评估协议,为现有基准增加图像级和呈现级评估。在深度研究基准上的实验表明,Ptah生成的面向人类的多模态报告比强基线更可靠、视觉信息更丰富且更易于使用。
近年来,移动端GUI代理在自动化移动任务方面展现出巨大潜力,但大多数高效系统仍依赖大型视觉语言模型进行截图理解和长期规划。能够直接部署在移动设备上的小型GUI代理更具实际应用价值,具有更低的推理成本和更好的设备敏感信息保护能力。然而,由于模型容量有限,这类轻量级代理在仅凭截图端到端规划并执行GUI任务时仍不可靠。我们提出面向知识的行为探索框架(UI-KOBE),该框架通过可复用的应用特定图知识来增强轻量级移动GUI代理。UI-KOBE首先自主探索移动应用并构建应用知识图谱,其中节点代表不同UI状态,边代表可执行的转换。在运行时,轻量级GUI代理将该图谱作为外部指导:给定用户任务和当前截图后,它识别当前图节点,并从与该节点关联的自环动作、相邻转换、任务完成或回退自由动作中进行选择。通过支持基于应用特定图谱指导的运行时决策,UI-KOBE减轻了端到端GUI规划的负担,帮助轻量级模型更有效地执行移动GUI任务,为构建高效、可解释且注重隐私的设备端GUI代理迈出实用的一步。
掌握终端环境需要具备多步规划、基于反馈的执行以及动态状态适应能力的语言代理。然而,目前训练此类代理的瓶颈在于依赖从外部存储库中抓取的数据,这限制了领域多样性、环境可控性以及针对特定能力缺陷的优化。我们提出了LiteCoder-Terminal-Gen,一个零依赖合成管道,能够直接从领域规范自动生成可执行且可验证的终端训练环境。利用该框架,我们构建了两个大规模资源:LiteCoder-Terminal-SFT,包含涵盖10个领域的11,255条专家轨迹;以及LiteCoder-Terminal-RL,包含602个可验证环境,用于轨迹级别的偏好优化。对Qwen系列模型进行监督微调后,所得到的代理在性能上显著优于其基础版本。值得注意的是,我们的32B变体在Terminal Bench 1.0、2.0和Pro上的pass@1分别达到了29.06%、18.54%和34.00%。此外,在我们的RL环境中应用直接多轮偏好优化(DMPO)带来了额外的性能提升。这些结果系统地表明,完全合成的可执行环境能够为掌握复杂的现实命令行工作流提供可扩展且可验证的监督信号。
我们研究了生成物理精确且视觉逼真的4D人-物交互(HOI)任务。给定一个静态3D人体和以3D高斯泼溅(3DGS)表示的目标物体,我们的目标是合成动态场景,其中人体根据给定的输入文本主动与物体进行交互(例如击打或踢踹)。为此,我们提出了PhyGenHOI,一个新颖的框架,将生成式人体运动与显式物理物体模拟耦合。我们将人体建模为由运动扩散模型(MDM)驱动的语义智能体,将物体建模为通过物质点法(MPM)模拟的物理智能体,并利用3D高斯作为统一的、可微分的表示。我们通过三种耦合机制监督它们的交互:(1)窗口吸引损失,在时间上同步生成式运动以拦截物体;(2)接触驱动重模拟步骤,在碰撞时触发物理一致性的动量传递;(3)掩膜视频SDS目标,注入基于视频的先验以增强接触保真度。实验表明,PhyGenHOI能够在不同动作、人体和物体上生成物理一致的4D HOI,并优于基线方法。项目页面及视频:https://omerbenishu.github.io/PhyGenHOI/
机器学习会议投稿数量的激增给科学同行评审系统带来了压力,同时也激发了对基于大语言模型(LLM)的自动审稿系统的兴趣。然而,这些系统实际表现如何,尤其是与人类审稿人相比,在发现科学漏洞方面能力如何,目前仍鲜为人知。为此,我们提出了PRISM(通过结构化多维评估的同行评审智能)基准框架,该框架从四个维度评估审稿质量:分析深度、新颖性评估、缺陷识别与主要问题优先级排序,以及多维建设性。与大多数现有基于ROUGE、BLEU等表层指标,或依赖未受约束的LLM作为评判(易将流畅性与严谨性混为一谈)的评估方法不同,PRISM将每个维度建立在论证挖掘、检索增强验证和基于共识的评分之上。我们运用PRISM对五个领先的自动审稿系统及人类审稿人进行基准测试,测试语料来自ICLR、ICML和NeurIPS的分层审稿语料库。结果显示,LLM在单个维度上能够达到甚至超越人类审稿人:分析深度相当,新颖性验证更强,批评优先级排序高度准确。然而,没有任何一个系统能在所有维度上持续匹配人类基准的均衡表现。每个系统都展现出独特的专长轮廓和特征性盲区——这些失败模式是聚合指标完全无法捕捉的。这意味着,LLM审稿人应被理解为人类审稿的针对性补充工具,在特定维度上有效,但作为独立替代方案并不可靠。我们的演示及关键结果可访问 https://khanhthanhdev.github.io/prism-page/。
逐点奖励建模为大型语言模型的后训练提供了关键信号,但在主观、不可验证的场景中难以进行绝对评分。基于评分标准的方法通过将评估分解为显式标准来解决这一问题,但现有方法通常依赖前沿LLM,并且由于硬布尔聚合导致平局问题。我们提出RUBRIC-ARROW,一种交替框架,联合训练评分标准生成器和基于评分标准的评审器,其强化学习阶段仅使用成对偏好数据。该方法采用基于概率的评分规则(减少平局)与阶段特定的基于偏好的奖励,结合交替GRPO方案,共同训练逐点评分器。大量实验表明,RUBRIC-ARROW取得了具有竞争力的奖励建模精度,并为下游策略后训练带来持续增益。
机器人操作的关键依赖于能够保留场景中与动作相关方面的感知。然而,大多数机器人学习流程都建立在为静态识别或视觉-语言对齐而预训练的视觉编码器上,将运动理解留给下游策略。我们提出了DynaFLIP,一种动力学感知的多模态预训练框架,将运动理解推至感知阶段的上游。我们从异构的人类和机器人视频中构建图像-语言-3D流三元组,并利用这些三元组作为训练时的监督信号来塑造仅基于图像的编码器。我们的核心思想是鼓励三种模态在共享的超球面空间中占据一个小的单形体体积——单形体体积越小表示对齐越强。为了避免朴素体积最小化带来的几何模糊性和平凡坍缩,我们将单形体体积最小化与余弦正则化器及对比目标相结合。我们的分析表明,DynaFLIP聚焦于对操作至关重要的控制相关区域。由此产生的动力学感知表征可作为可复用的视觉主干,并在包括VLA在内的多样化下游策略中持续优于基线。我们在多种仿真和真实世界设置中验证了这一点,在分布外场景下性能提升高达22.5%。我们的结果表明,当视觉表征不仅被训练编码“存在什么”,还编码“世界在动作下如何变化”时,机器人泛化能力会得到提升。
在知识密集型问答中应用强化学习以提高事实准确性时,面临奖励设计的两难困境。响应级奖励仅提供粗粒度监督,无法区分推理轨迹中的正确与错误陈述。句子级替代方案虽能提供更细粒度的反馈,但通常依赖NLI验证器、LLM评估器或知识验证流水线,这些方法在强化学习规模化部署中成本高昂,且对于稀有实体事实(精确奖励信号尤为重要)往往不可靠。我们提出CorVer(语料库验证),一种轻量级、即插即用的过程奖励方法,用基于语料库的信号(源自维基百科共现统计)替代神经验证器。CorVer分配句子级信用,并通过简单对齐将其映射为词元级优势值,仅需一个0.5B的提取器和对每个句子进行一次语料库查询。在涵盖六种指令微调模型(3B至14B)和五个QA基准的30个(模型,基准)组合中,CorVer在每个组合上都优于原始基线,TriviaQA平均提升4.1个百分点。在其可行配置下的20个组合中,有18个超过四种神经验证器基线,同时训练速度快4.8至8.4倍。
我们提出了ChildVox,这是一个新颖的基准测试,用于刻画儿童通过多种声音信号进行交流的特点。具体而言,ChildVox 追踪从出生到学龄的完整发展轨迹,涵盖生理声音、非语言发声、规范音节以及口语。ChildVox 整合了来自17个以儿童为中心的音频和语音数据集中的20多个子任务,能够实现系统性的跨语料库和跨领域比较。我们评估了一系列具有代表性的音频和语音基础模型,包括自监督模型、面向自动语音识别的模型以及大型音频语言模型,任务包括生理声音分类、发声与规范音节建模、以及语音质量评估与识别。基准测试结果表明,ChildVox 提供了一套高性能模型,能够识别儿童发出的多种声学信号,支持刻画儿童语言水平以及追踪随年龄增长的语音产出等下游应用。
多模态大语言模型正越来越多地被部署为长期智能体,其记忆系统不仅要完成回忆功能,还需跟踪不断演变的环境、修正过时信息,并在决策时刻提供恰当的证据。现有基准测试仅评估静态对话中的回忆能力,将记忆压缩为单一的任务结束准确率,并将视觉观察降级为文字说明,导致我们无法定位记忆在写入、维护、检索或使用各环节的失败。随着能够自主生成记忆的智能体框架的出现,这一差距进一步凸显,因为我们缺乏系统化的方法来比较手工设计的流水线与自管理方案。为弥合这些差距,我们将多模态智能体记忆形式化为一个具有可观测四阶段生命周期的"动作-世界交互循环",并在WorldMemArena中实现该框架:包含400项多会话多模态任务,涵盖终身演化(个人与任务状态的持续更新)和代理执行(基于真实观察、行动和反馈的记忆),并标注了黄金记忆点、更新、干扰项和证据链,支持分阶段诊断。这使得我们首次能够对长上下文记忆、手工设计(RAG与外部记忆系统)以及基于框架的记忆智能体进行公平对比。结果显示:(1)更好的记忆写入与存储并不保证更优的整体性能;(2)多模态记忆仍难以充分利用视觉证据;(3)各系统在不同领域中表现不稳定,并在真实的智能体轨迹中性能下降;(4)框架式记忆更灵活,但代价高且可靠性较低。
单次思维程序(One-shot PoT)会生成一个打印原始动作计划的Python程序;单个无效动作会无声地使整个轨迹失效。我们提出RePoT(可恢复思维程序):一种确定性验证重放机制,它遍历计划直至第一个无效转换,然后通过一次LLM调用从验证前缀继续执行。在PoT失败的约14%问题上,RePoT最多仅需额外一次LLM调用。在PuzzleZoo-775基准上,RePoT在四种闭源模型配置中比PoT高出3到11个百分点,且在gpt-5.4-mini-medium上达到96.9%对86.3%的峰值;与匹配预算的PoT重试基线相比,RePoT在Gemini上取得决定性胜利(+3.8个百分点,95%置信区间[+2.2, +5.4]),在GPT-medium和Claude上处于采样噪声范围内,但在GPT-mini上表现较差——这种能力扩展模式,我们通过自适应RePoT(一种基于规则的调度器,根据验证前缀长度在后缀修复与全新PoT重试之间进行路由)初步着手解决。我们在PlanBench Blocksworld(提升1.1至11.4个百分点)以及四个开源权重模型(四个中有三个提升3.3至20.0个百分点)上复现了该结果。在我们受控恢复基准Derail-550上,所有能够访问检查点信息的条件在GPT-medium上均超过30%,在Gemini上超过70%,而仅凭错误反馈的条件不超过3.1%——这表明检查点信息(而非特定的验证前缀尾部)才是承载恢复能力的关键信号。
更大的模型能学会较小模型无法掌握的任务。是什么驱动了这一现象?我们提出了一个简单的现象学论证:幂律缩放本身已经表明,即使拥有无限训练数据,更大的模型也能学习到较小模型无法学到的部分数据分布。为了验证这一观点并找出其成因,我们研究了模型缩放对合成设置的影响,该设置由一组呈现单调缩放曲线的任务混合而成。结果指向了一种数据引发的资源(神经元)竞争。具体而言,较小的模型会将其神经元分配给高频或低复杂度的任务,从而导致它们学到的解决方案在罕见和复杂任务上表现不佳。而且,即使存在能够表达所需任务的解决方案,这种情况仍会发生。随后,我们评估了更大的模型如何规避这种以数据为中心的瓶颈,发现这源于一种减弱的干扰机制:更大的模型能为常见任务分配足够多的资源,使得这些任务的梯度更新变得微弱,从而在罕见任务特征缓慢积累时不会将其覆盖。最后,为了进一步验证这些论断,我们在不同频率和复杂度的新任务上预训练了OLMo模型(参数规模从400万到40亿)。结果与我们在合成数据实验中的发现一致:只有更大的OLMo模型能学会那些低频且复杂的任务,并且这些更大的模型在其表示中嵌入了更多的任务特征,同时任务间的梯度干扰更小。总体而言,我们从数据为中心的角度解释了为什么更大的模型能学会较小模型无法掌握的任务。这有助于理解为什么在实际应用中更大的模型表现更好,并为模型规模选择和训练数据配比等实践问题提供参考。
数据驱动的方法彻底改变了3D视觉领域,使得Transformer能够高效地重建和生成静态3D物体。然而,生成模拟性4D动态——即静态物体在各种物理条件下随时间发生的现实变形——尽管对于构建全面的3D世界模型至关重要,但依然充满挑战,且往往依赖特设方法。现有大多数方法假设一个预定义的物理模型,并通过系统辨识来估计参数,这限制了这些方法仅能处理特定类别和小规模数据集。我们提出,通过学习面向物体中心物理系统的数据驱动运动学状态参数化,可以克服这些限制。具体来说,我们同时学习一个表示物体所有可能状态的潜空间,以及一个解码器,该解码器能够将任意采样的潜变量映射为物体一个合理的变形形状。我们将这种参数化称为神经物体运动学(NeuROK),并在精心策划的大规模4D数据集上训练基于Transformer的编码器-解码器模型。这一表述方式及学习到的模型极大地简化了模拟性动态的生成,因为我们只需从经典物理学中拉格朗日力学的角度,考虑低维潜空间内的动力学。我们通过多种动态物体类型展示了这一神经模拟框架的有效性和泛化能力,明显优于先前的工作。项目主页:https://chen-geng.com/neurok
自回归视频扩散模型通过逐帧生成流式视频,并在每个片段中基于已生成的内容进行条件化处理。这类模型在结构上以首帧为锚点:其键值表示在注意力缓存中占据特殊地位,并作为整个生成过程中的主要场景参照。由于该锚点在缓存中是最清晰且无误差的位置,模型会过度关注它,从而抑制视频动态性,并使得场景构图锁定在初始视角,即使场景自然演变也无法改变。这导致生成的视频在时间维度上浅层化,其中的运动、镜头移动和场景发展均被弱化,以换取静态的一致性。为解决这一问题,我们将静态锚点替换为自适应状态——一个隐藏的隐变量,模型在每个片段中与内容一同去噪,但从不渲染它。模型不再参照固定的首帧,而是通过同时关注前一状态和当前内容,在每个步骤中生成自身的场景锚点,从而产生一个随生成内容演变的参照。与编码绝对时间概念的标准视频生成不同,我们的方法将时间视为相对的:每个生成步骤都看到相同的位置结构,无论生成进行到何种程度,且状态转换在每个片段中完全一致。这些特性共同在生成过程中引入了递归机制,其中去噪充当转换函数,键值缓存充当载体,无需外部模块。实验表明,自适应状态显著提升了视频动态性,使生成视频中包含更丰富的运动和自然的场景演变。
自然生成允许大型语言模型(LLMs)产生自由形式的响应,具备丰富的推理过程,但缺乏结构使得输出难以验证。相反,约束解码确保了标准化格式,却可能因在生成过程中过早施加约束而无意中限制推理能力。我们提出一种混合方法,称为In-Writing,它在单次调用中结合了自由形式推理与结构化生成。模型首先进行无约束推理,仅在生成触发令牌后才应用结构化解码,从而明确地将推理与格式化分离。我们证明,我们的触发令牌策略能够几乎完全消除过早触发——即约束解码中断正在进行推理的失效模式。在涵盖分类和推理任务的多种数据集上的评估表明,我们的方法相较于自然生成,在准确率上最高提升了27%,超越了当前最先进的水平。我们的代码可在以下地址获取:https://github.com/Nokia-Bell-Labs/InWriting。
视频的叙事质量从根本上决定了其感知价值。尽管现有的视频生成方法能够生成视觉上令人满意的内容,但它们主要依赖于稀疏的条件信号(如文本提示或首尾帧),这使得对叙事结构和时间节奏的精确控制受到限制。在本文中,我们提出了SmartDirector框架,通过多个关键帧增强视频生成模型的叙事能力。SmartDirector支持灵活的生成场景,包括单镜头生成、多镜头叙事合成以及视频扩展。该框架分为两个阶段:Director-Gen根据提供的关键帧生成低分辨率视频,Director-SR则利用高分辨率关键帧作为语义锚点,恢复精细细节以优化输出。为了实现稳健的多关键帧训练,我们构建了一个数据流水线,从电影中提取单镜头和多镜头序列。大量实验表明,SmartDirector显著优于现有最先进的方法。我们将发布代码以推动进一步研究。
遮挡感知预测由于未观测区域固有的不确定性,仍是自动驾驶中的关键挑战。现有方法或基于可达状态高估风险,或在高度遮挡不确定性下难以准确预测轨迹。针对这些局限,我们提出一种面向部分可观测环境的统一风险地图建模与学习框架。该方法通过时空建模整合交通流风险与碰撞风险,实现对遮挡引发风险的细粒度评估。为解决遮挡交互场景稀缺的问题,我们引入一种基于扩散的场景生成框架,能够生成真实且具有对抗性的场景。我们将统一风险地图的建模与学习集成到一个框架中,支持部分可观测条件下的风险感知规划。在Waymo开放运动数据集上的实验表明,我们的方法显著优于当前最先进的遮挡感知基线,将最小碰撞时间提升了0.78倍,平均碰撞时间提升了1.67倍。所提出的框架为部分可观测环境下的风险感知规划提供了一种全面且实用的解决方案。
来自自监督视觉模型和文本到图像扩散模型的基础特征已被证明对语义对应估计有效。然而,由于这些特征主要从二维图像目标中学习,它们缺乏明确的3D感知能力,常常混淆对称物体侧面、重复部件以及在3D中截然不同的视觉相似结构。我们提出了一种3D感知后训练框架,该框架通过融入3D基础模型的先验知识,超越了现有的二维基础特征。对于给定的图像,我们的方法利用SAM3D估计物体几何与姿态,并通过渲染-比较优化来细化姿态。随后,我们根据估计的物体姿态,将重建几何中的PartField描述子渲染到图像平面。由此产生的几何感知特征图补充了DINO和Stable Diffusion的特征,而重建形状上的测地距离则能可靠地筛选候选对应关系。我们使用筛选后的匹配作为监督信号,在DINO和Stable Diffusion之上训练一个轻量级适配器,用于语义对应。与以往需要姿态标注并依赖粗糙球面几何的后训练方法不同,我们的方法自动获取实例特定的3D结构,并利用其指导对应学习。实验表明,我们的方法在提升语义对应性能的同时,减少了人工几何监督。代码和模型可在 https://github.com/GenIntel/3D-SC 获取。
多模态网页智能体的近期进展通常依赖推理时计算量的增加,包括展开式搜索、验证器传递、离线技能发现以及专家模型堆叠。这引出一个核心问题:网页智能体能否在积累经验的过程中变得更高效,而非更昂贵?我们首先分析了VisualWebArena中的轨迹数据,识别出三个反复出现的低效来源:重复动作循环、隐藏的发现成本以及低提示缓存复用率。随后我们提出PANDO——一种单次展开的在线技能蒸馏框架,该框架维护结构化的技能库,并融合进度反思、基于置信度的技能降级、分层路由、视觉压缩以及缓存感知提示。在全部910个VisualWebArena任务上,PANDO实现了58.3%的成功率,优于SGV(54.0%)和我们复现的WALT(45.2%),同时相比SGV减少58%的令牌使用量,相比WALT减少61%,且无需任何预评估发现预算。进一步的300任务消融实验表明,规则与惯例贡献了大部分成功率提升,而路由、压缩和缓存感知提示则将更大的技能库转化为更低的边际令牌成本。最后,我们引入三项轨迹级效率指标——动作重复率、步骤开销比和提示缓存利用率,使效率在最终成功率之外变得可见。
长序列LLM推理使键值(KV)缓存成为GPU内存的主要消耗者,并导致每令牌注意力计算愈发昂贵。许多常见的驱逐策略使用静态时效窗口或历史注意力,而忽略了每个解码步骤中计算的一个信号:模型当前的不确定性。我们提出CONF-KV,一种KV缓存管理器,它将下一令牌分布转换为一个标量置信度分数,并据此选择每步的缓存预算:当模型不确定时保留更多上下文,当模型自信时激进地剪枝。在每个预算内,令牌根据累积注意力质量和时效性的综合指标进行排序,同时一个受保护的近期窗口保持局部连贯性。我们将该策略与分块在线softmax注意力、混合FP16/INT8存储以及金字塔逐层预算变体相结合。在四个模型家族和长达4K的生成序列上,CONF-KV的占用空间接近固定512令牌滑动窗口,同时困惑度与完整KV相比仅相差1.5-2.1个点。在长达32K令牌的“大海捞针”任务中,CONF-KV达到91.4%的检索准确率,而滑动窗口为53.8%,H2O为80.6%;在75个VisualWebArena任务中,它保留了完整KV成功率的95.3%,同时峰值内存降低2.8倍。
大型语言模型(LLMs)在遵循指令和复杂推理方面的能力日益增强,使得提示(prompting)成为一种无需参数更新即可适配模型的灵活接口。然而,提示设计仍然劳动密集,且对格式、措辞和指令顺序高度敏感,这催生了自动化提示优化方法,旨在减少人工投入的同时保留推理时的灵活性。但现有方法通常遍历候选提示,或使用由单个样例或小批量数据驱动的固定批评-修正流水线,这限制了它们捕捉系统性错误模式并基于失败历史进行针对性编辑的能力。我们提出反思性提示调优(RPT)框架,该利用大语言模型的函数调用功能模拟人类提示工程师的迭代工作流程。优化器调用诊断函数,在完整优化集上评估目标模型,总结反复出现的失败模式,并返回结构化的诊断报告。优化器结合该报告与先前报告积累的记忆,为下一轮迭代修改提示。RPT还通过诊断反馈和最终提示选择中的校准信号支持置信度感知优化。在三个推理任务上,RPT相比初始提示最高提升12.9个百分点,与现有最优方法保持竞争力,并改善了置信度校准。我们的分析表明,RPT在多跳推理和数学推理任务上尤为有效,能够生成与诊断出的失败模式相符的针对性提示修订,从而在任务性能和校准方面均带来提升。
大型语言模型(LLM)已成为人工智能的核心范式,然而其核心计算基元——注意力机制——在结构上始终未发生变化。局部线性注意力(LLA)是一种基于测试时回归框架下非参数统计方法推导出的注意力机制。与先前关于高效注意力变体的研究不同,LLA 将软最大注意力中的局部常数估计升级为局部线性估计,从而在联想记忆方面实现了可证明的优越偏差-方差权衡。然而,由于计算和数值稳定性问题,LLA 尚未在大规模 LLM 预训练中推广使用。我们提出了 Parallax,一种参数化的局部线性注意力机制,可扩展至 LLM。Parallax 消除了 LLA 中的数值求解器,并学习了一个额外的类查询投影器来探查键值协方差。我们将 Parallax 置于由带宽、投影器构造和仿射结构相互连接的一系列注意力机制家族中。我们提出了一种硬件感知算法,相比 FlashAttention 提高了算术强度,使注意力机制更偏向计算密集型区域。我们的原型解码核在多种批量大小和上下文长度下,其性能可媲美或超越 FlashAttention 2/3。我们在 0.6B 和 1.7B 参数规模上预训练了 Parallax,发现在整个预训练过程中困惑度持续改善,且收益可迁移至下游基准任务。在参数匹配和计算匹配两种控制条件下,这一优势依然存在,展示了帕累托改进。我们进行了细致的预训练消融实验,并发现一个新颖现象:Muon 优化器能够释放 Parallax 的能力。据我们所知,这是架构研究文献中首个关于注意力机制中架构与优化器强协同设计的实证演示。
基于人类反馈的强化学习(RLHF)是将大型语言模型(LLMs)与人类偏好对齐的标准方法。在本研究中,我们引入了"对齐篡改"这一潜在漏洞:指正在进行对齐训练的LLM能够影响偏好数据集,导致RLHF反而放大非期望行为。该漏洞源于RLHF的核心局限性:(1)偏好数据集由LLM自身的输出构建,使其具有影响数据的能力;(2)成对比较仅能表明哪个回答更优,而无法解释其内在原因。这些局限可能被利用引发对齐篡改。例如,若LLM生成的高质量回答存在偏见,标注者会基于质量因素选择偏好该回答。然而偏好标签无法区分质量与偏见,奖励模型继承这一缺陷后,通过强化学习或最佳-N采样优化此类奖励将进一步放大未对齐的偏见。实验表明,该漏洞能放大从关键词偏向到宣传行为(如性别歧视)、品牌推广及工具性目标追求等多类偏见。缓解该问题颇具挑战性:现有鲁棒RLHF技术若不牺牲回答质量,便无法彻底解决对齐篡改。这些发现揭示了当前RLHF的结构性脆弱性,并强调了防范该漏洞的迫切性。项目页面:https://alignment-tampering.github.io/
从大型API目录中检索工具是LLM代理的一个核心瓶颈:用户查询以口语化且经常表述模糊的语言呈现,而目录却使用技术性的API术语,固定的编码器本身无法弥合这一鸿沟。两种主流的训练方法——对比编码器微调和基于冻结LLM的HyDE式查询扩展——从相反的方向解决该问题,但在互补的方面失效:当查询的表面形式与目录匹配时,微调后的编码器表现出色,但在不匹配时则性能崩溃;而零样本HyDE对表述模糊的查询更鲁棒,但生成的假设性描述脱离目录,当查询表述清晰时反而降低检索效果。我们提出CoHyDE,一种迭代方法,将密集编码器和LLM改写器训练为单一共同进化系统:编码器通过InfoNCE在改写器生成的目录风格假设性描述上重新训练,而改写器则通过DPO根据编码器的检索分数进行偏好对齐,双方在循环开始前均基于工具目录进行冷启动。在ToolBench目录的约1万个工具子集上,三轮CoHyDE在标准查询上将最强单一组件基线的NDCG@5提升了+2.5个百分点,在保留的模糊查询上提升了+6.3个百分点,在难度最高的模糊查询层级上提升幅度高达+8个百分点。消融实验证实,联合训练是关键因素:单独使用任一组件都无法在清晰查询和模糊查询上匹敌CoHyDE,在模糊查询上性能损失高达-8个百分点。
我们证明,LoRA适配器(微调大语言模型的主流分发格式)可通过训练数据投毒被可靠地植入后门,同时保持基线任务性能。在Qwen 2.5 1.5B提示注入分类器上,少量投毒样本即可将保留干净准确率的后门驱动至饱和状态。所得到的后门在令牌特征层面而非结构模式层面泛化:基于某一RFC引用训练的模型会在任何RFC引用上被激活,但无法迁移至结构相同的ISO、OWASP、CWE或NIST引用。这种不对称性有利于攻击者,因为防御者无法泛化地探测“结构化引用”。 我们在基础模型规模与家族、LoRA秩以及触发字符串等多个维度上刻画了该攻击,并针对多种子适配器队列评估了两种互补的检测路径。一种基于两个探测电池统计量(outlier_gap和mean_attack_rate)构建的行为检测器,在探测电池与触发词的令牌邻域重叠时能够完美区分受投毒适配器与干净适配器;在不重叠时也能以高召回率和零假阳性率进行区分。一个权重级统计量——维度归一化Frobenius范数的跨模块标准差——同样能在不运行模型的情况下完美区分该队列。两者结合后,检测路径对探测组成具有鲁棒性。因果补丁将后门定位到中后层的MLP块,其中down_proj是影响最强的单个投影。 在规模、家族和秩上的复现表明,行为检测器无需重新调优即可迁移,而权重级检测器则依赖于基础模型的校准。攻击效果随秩单调递增,且所选触发锚令牌既依赖于触发词也依赖于基础模型。对于适配器供应链扫描,行为检测是操作上可移植的结果。
视觉-语言模型(VLM)在鲁棒的3D空间推理方面常显不足。现有方法通常依赖基于3D视觉问答数据集进行微调,这可能导致过度拟合数据集特定偏差;而集成专用的3D视觉编码器则往往缺乏灵活性且较为繁琐。本文认为,真正的空间理解应源于对基本几何先验的学习,而非仅仅依赖高层级的VQA监督。我们提出GASP(几何感知空间先验)框架,该框架将这些先验直接注入大型语言模型的Transformer层中。GASP采用一个轻量级的对应头,作为跨所有层的深度监督信号,并通过利用大规模视频场景中的真实标注几何结构进行双目标训练:一方面通过基于真实点对应的对比损失强制实现2D视角不变性,另一方面通过深度一致性监督消除3D几何歧义。我们的分析首先提供了诊断性证据,表明标准VLM内部的对应匹配精度极低(通常低于5%)。接着我们证明,训练后该行为显著改善,将逐层峰值对应精度提升至70%以上,并将时间鲁棒性维持在超过85%的水平,而基线方法仍低于5%。这些内部改进在多项下游空间基准测试中转化为显著性能提升,包括在All-Angles Bench上提高18.2%,在VSI-Bench上提高29.0%,且所有这些提升均未使用任何3D VQA数据进行训练。我们的发现表明,从基本几何先验中学习是赋予VLM更可靠3D空间推理能力的一条有前景且可泛化的路径。
我们研究用于合作的两级自动研究框架:外层AI智能体自主重新设计内层流水线,该流水线用于多智能体序列社会困境(SSDs)的LLM策略合成系统。研究者智能体R(作为编码智能体运行)读取内层源代码,编辑系统提示、反馈函数、辅助库和迭代逻辑,运行评估并决定保留哪些内容,遵循自动研究范式。在两个游戏(Cleanup和Gathering)、两个策略合成LLM以及两个福利目标(功利主义效率和罗尔斯最大化最小原则)下,研究者可靠地超过手工设计的基线,大幅缩小运行间方差,并优于仅提示优化。发现的流水线依赖于目标:仅在最大化最小原则下,研究者向合成器流水线注入了明确的公平性机制,而这类机制在其自身目标无关的系统提示和每个效率优化的流水线中都不存在。这支持了一种信息设计解读,即研究者根据福利目标选择向有限理性的合成器揭示什么。代码见https://github.com/vicgalle/autoresearch-social-dilemmas。
我们提出了 OmniInteract,一个用于实时全模态大语言模型的流式基准测试,评估方式是通过对音频-视频流进行原生在线推理。与离线视频理解或基于文本提示的流式问答不同,OmniInteract 保留了原始的音频-视频流,要求模型在线处理数据,而无法访问未来内容。用户查询和环境声音被嵌入音频轨道中,模型需检测多模态触发条件,自行决定何时响应,并在流式播放过程中回答问题。OmniInteract 包含 250 个视频,共 1430 个时间锚定响应槽:其中 1062 个为单问单答(1Q1A)槽,涵盖实时、主动和嵌套场景;另外 368 个为单问多答(1QnA)槽,用于连续任务监控和步骤指导。每个响应槽均包含触发条件、响应窗口和目标答案。我们采用交互感知质量-及时性 F1(IA-QTF1)、中断诊断套件以及嵌套链完成分数,评估响应正确性、时机、无效输出、中断处理以及上下文连续性。实验结果表明,当前模型在流式交互方面仍然较弱,最佳整体 IA-QTF1 仅为 0.368,最佳 1QnA IA-QTF1 仅为 0.052。进一步对全双工场景下的数学推理研究发现,离线能力并不一定能迁移到在线交互中。代码与数据集将在 https://github.com/Lucky-Lance/OmniInteract 公开。
高保真3D高斯头部头像生成对于增强现实/虚拟现实、远程临场感和数字人应用至关重要。现有方法依赖于多视图数据集、3D捕获或中间2D视图合成。相比之下,我们仅从随机采样的2D图像中学习条件性和非条件性3D头部模型,无需多视图数据、3D监督或中间视图生成。我们提出MVCHead,一种单次状态空间模型,直接在3D表示中强制执行多视图一致性,同时在此约束下回归3D高斯。其核心是层次状态空间模块,该模块从粗到细逐步优化高斯体,同时捕获长程依赖。在每个HiSS模块内,我们修改Mamba的标准单向扫描,引入层次双向状态扫描,该扫描将循环对齐到多视图不一致性最强的轴上。最后,我们设计了SE(3)多视图评判器,评判一组自渲染图像是否源于单一底层3D配置,在不观察真实多视图对的情况下奖励跨视图像素对齐。MVCHead在感知质量上达到最先进水平,在纹理和几何一致性上超越先前方法,并保持可比的形状一致性。为展示可扩展性,我们发布了FaceGS-10K,这是首个用于3D头部模型训练和评估的即用型3D高斯头部资产大规模数据集。项目页面和代码:https://humansensinglab.github.io/MVCHead/
全球化和多元文化持续催生出日益多样的语音变体。然而,当前的口语对话系统在处理代表性不足的方言和口音时频繁失败,常常误判输入语言,并在下游对话任务中引发级联故障。在低资源限制下解决这种方言差异仍是一个开放性挑战,因为标准的微调方法计算成本高昂,且在高维语音数据上容易过拟合。我们提出凸语言检测(CLD),一种新颖的框架,将理论坚实的凸优化技术集成到口语对话系统管道中。我们的方法通过JAX中基于多GPU的交替方向乘子法(ADMM)高效实现,从而提供全局最优性保证和多项式时间内的快速训练。理论上,我们证明了所提出的凸目标函数能够诱导出认证的间隔稳定性,并提供了针对特征扰动的保证。实验上,我们展示了样本效率和对输入方言变化的鲁棒性,在具有挑战性的低资源场景下达到了97–98%的准确率。我们的开源软件包可通过https://pypi.org/project/jaxcld/获取。
离散扩散模型通常通过清洁数据预测进行训练,但该预测可通过不同方式定义反向动力学。在掩码扩散模型(MDM)中,这些选择大致重合,而在均匀扩散模型(UDM)中则不然。我们证明,UDM的标准桥接参数化并非由去噪后验优化,而是由一种留一法后验优化——该方法预测每个清洁词元时不依赖其自身的噪声观测。这揭示了插件式ELBO与常规交叉熵去噪目标之间的不匹配。我们刻画了留一法目标,并推导了去噪器、留一法后验与得分之间的精确转换关系。这些转换使我们能够解耦参数化与训练目标。进一步地,我们的结果还带来了无需额外训练的推理改进:基于留一法预测器的预测-校正采样器,以及改进的温度采样方法。 我们进一步引入一种吸收态形式的均匀扩散,该形式在保持UDM联合分布的同时,将其分解为类掩码扩散的采样操作,具有更简单的去噪后验、延续性去掩码机制以及自然的再掩码机制。在语言建模任务上,留一法参数化一致地提升了UDM的生成质量,而吸收态构造则与掩码扩散性能相当甚至更优。这些结果表明,掩码扩散与均匀扩散之间的经验差距主要源于参数化与采样设计,而非边缘分布本身的选择。代码与模型可在 https://github.com/samsongourevitch/rev_udm 获取。
电影级动物特效的创作需要精准模拟肌肉与皮毛动力学,这一过程在传统制作流程中既耗费人力又计算成本高昂。尽管生成式扩散模型已在多种艺术工作流中展现出潜力,但其在高保真动物仿真方面的应用尚未被充分挖掘。我们提出MoZoo——一种生成式动力学求解器,该模型绕过了传统精化流程,能够在多模态引导下从粗糙网格直接合成高保真动物视频。我们设计了角色感知RoPE机制,通过基于角色的索引重映射实现运动对齐同步,同时利用固定时间偏移解耦参考信息。与此配合的非对称解耦注意力机制将隐序列分区,强制单向信息流动,有效防止特征干扰并提升计算效率。针对高质量训练数据稀缺问题,我们提出MoZoo-Data合成-真实管线,借助渲染引擎与逆映射方法构建大规模配对序列数据集。此外,我们建立了包含120组网格-视频对的综合性基准测试MoZooBench。实验结果表明,MoZoo能够跨不同动物骨架与布局实现高保真皮毛仿真,并在时间一致性与结构一致性上保持优越性能。
大型语言模型(LLMs)在各种敏感语境中表现出系统性的政治偏见。我们发现,LLMs在处理来自对立政治立场的对应话题时存在不对称性。我们将这一现象称为隐性政治偏见,并识别出7类实现此偏见的操作手法。我们提出两种隐性偏见的衡量指标:情感一致性指标衡量配对政治提示中修辞和框架的对称性;有益性一致性指标衡量回应深度和参与度的对称性。为减少这两种隐性偏见,我们引入政治一致性训练(PCT),这是一种包含两种互补范式的强化学习训练方法:情感一致性训练和有益性一致性训练。研究表明,PCT在保持整体有益性的同时,显著降低了隐性政治偏见,并能泛化至保留的基准测试。我们在 https://political-manipulation.ai 公开了相关研究成果。
近年来,视觉-语言模型(VLM)虽在诸多任务中取得显著进展,但先前研究表明,将大型语言模型或多模态模型应用于时序数据异常模式检测时,其性能表现不尽如人意。公开的异常检测基准通常仅提供区间标注,缺乏自然语言解释,这使得对VLM进行微调以生成有依据、可解释的决策变得困难。为弥补这一不足,我们构建了VisAnomBench——一个基于公开时序数据集精心整理的基准测试集,并通过基于细粒度、任务特定奖励从多个大型VLM中筛选的高质量异常解释进行增强。在该基准上微调后,我们开发了VisAnomReasoner,一种用于时序异常检测的参数高效型VLM。在VisAnomBench上的实验结果表明,VisAnomReasoner能够实现更准确的异常定位,并在所有基线方法中持续领先,精确率和F1分数分别提升至少21.23和23.87个百分点。在TSB-AD-U基准上的额外实验进一步验证了其跨基准泛化能力,VisAnomReasoner使精确率和F1分数分别提升9.57和13.39个百分点。
本文提出了ViGeo,一种用于从视频序列中恢复空间密集且时间一致几何结构的前馈基础模型。ViGeo基于纯Transformer架构,未采用特定任务的架构修改,在统一模型内支持流式推理、全序列推理及长视频推理。其核心设计是动态分块注意力机制,该机制在训练阶段使模型同时暴露于双向和因果时序上下文,并允许其在测试时无需重训练即可调整注意力模式。为提升监督质量,我们进一步提出了基于补全的数据细化框架。该框架训练了一个视频深度补全教师模型,该模型以稀疏且带噪声的标注为条件,利用视频/多视角上下文生成密集、时间连贯且几何可靠的训练目标。除深度图和点图外,ViGeo还在同一框架内预测表面法线。仅基于公开数据集训练,ViGeo在在线、离线及长视频深度估计、表面法线估计及视频点图估计任务中均达到了最先进性能。
手机使用代理的一个核心瓶颈是,能够涵盖真实移动行为的可控、可复现环境难以大规模构建。现有的移动代理基准测试虽然在评估方面取得了重要进展,但它们本身无法提供一种可扩展的方式来构建大量新的手机使用环境。我们提出了PhoneWorld——一个可复用的流水线,能够将真实的GUI轨迹与截图转化为可控的手机使用环境、可执行任务、自动化验证器以及训练数据展开。PhoneWorld并非逐个手动构建移动基准测试,而是利用真实轨迹来恢复哪些屏幕是重要的、屏幕之间如何连接、哪些交互必须改变环境状态,以及哪些用户目标可以实现自动验证。基于这些信息,它构建了由只读应用内容和可变状态支持的可运行模拟Android应用,然后从相同环境中衍生出可执行任务、基于规则的验证器以及训练数据展开。在当前的实例中,PhoneWorld涵盖16个领域的34个应用,覆盖搜索、浏览、购物、预订、媒体和社交互动等常见消费者移动行为。在固定训练预算下,将基于AndroidWorld的基线中10K步的辅助AndroidWorld语料替换为广泛的PhoneWorld监督数据,可同时提升全部四个评估基准:HYMobileBench提升17.7个百分点,AndroidControl提升6.0个百分点,AndroidWorld提升14.7个百分点,PhoneWorld提升52.5个百分点。随后我们研究了另外两个扩展问题:增加PhoneWorld监督数据的数量能显著提升PhoneWorld的性能;在固定PhoneWorld预算下,扩大应用覆盖范围能带来更大的收益。总体而言,PhoneWorld将关注点从逐个构建移动基准测试转向了规模化供应手机使用环境本身。
智能手机诈骗日益猖獗,通常表现为多阶段、跨应用的过程,其意图逐步显现。因此,有效的干预需要在意图明确之前进行预判。这本身极具挑战性,因为决策必须依赖包含时间分布证据的部分行为轨迹。在本文中,我们提出ORACLE(面向跨时间潜在威胁的在线推理框架),这是首个基于流式应用使用轨迹进行早期诈骗预警的智能体框架。为支撑这一场景,我们构建了一个真实世界的长时程流式应用使用轨迹基准数据集,涵盖12种诈骗类型、横跨较长时间段(平均15天)、涉及多种应用(95个应用),并交织了正常行为与诈骗行为。针对证据碎片化问题,我们引入了一个自演化上下文管理器,能够随时间自适应地整合以实体为中心的交互,从而从部分观测中更有效地重构跨时间证据。为增强对早期潜在信号的敏感度,我们提出了一种基于策略的自蒸馏方案:教师模型基于反诈骗反思与技能线索的总结进行条件化,监督无法获取此类反思的学生模型。该方案将证据感知知识蒸馏到学生模型中,提升其对部分轨迹中新兴欺诈模式的识别能力。实验表明,ORACLE显著提升了早期诈骗预警性能,在真实流式场景中及时发出警报的同时减少了误报。