每日精选AI研究论文及翻译
稀疏线性注意力(SLA)通过结合稀疏注意力与线性注意力来加速扩散模型,在视频生成任务中展现出强劲性能。然而存在两个问题:(i)SLA依赖基于注意力权重大小的启发式分割策略来分配稀疏分支与线性分支的计算任务,这种策略可能并非最优;(ii)通过形式化分析SLA的注意力误差,我们发现其与直接分解为稀疏注意力和线性注意力的方案存在错配。为此我们提出SLA2模型,其创新点包括:(I)引入可学习路由器动态选择每个注意力计算应采用的稀疏/线性注意力模式;(II)采用更忠实于理论推导的稀疏-线性注意力公式,通过可学习比例系数融合两个分支;(III)设计稀疏+低比特注意力架构,通过量化感知微调引入低比特注意力以降低量化误差。实验表明,在视频扩散模型中SLA2可实现97%的注意力稀疏度,在保持生成质量的同时获得18.6倍的注意力计算加速。
自主网页图形界面代理的性能高度依赖于其训练数据的质量与数量。然而一个根本性瓶颈始终存在:从真实网站收集交互轨迹成本高昂且难以验证。由于底层状态转换具有隐蔽性,不得不依赖不一致且成本高昂的外部验证器来评估步骤级正确性。为此,我们提出AutoWebWorld——通过将网页环境建模为有限状态机,并利用代码生成代理将FSM转化为可交互网站的新型框架。与真实网站中状态转换隐式存在不同,AutoWebWorld明确定义了所有状态、动作及转换规则。这实现了程序化验证:动作正确性可通过预定义规则检查,任务成功则由FSM图中是否抵达目标状态确认。AutoWebWorld支持全自动的搜索-验证流程,以每条轨迹仅0.04美元的成本从29个多样化网页环境中生成11,663条已验证轨迹。基于此合成数据的训练显著提升了真实场景性能:我们的70亿参数网页GUI代理在WebVoyager基准测试中仅需15步即可超越所有基线模型。此外,我们观察到明显的规模效应定律:随着合成数据量的增加,模型在WebVoyager和Online-Mind2Web基准上的表现持续提升。
尽管多模态基础模型发展迅速,具身智能领域仍缺乏一个统一且基于物理实境的基础模型,能够将感知、推理与规划整合于真实世界的时空动态中。我们推出RynnBrain——一个面向具身智能的开源时空基础模型。该模型在统一框架下强化四大核心能力:全面的自我中心理解、多样化时空定位、物理接地推理及物理感知规划。RynnBrain系列包含三种基础模型规模(2B、8B和30B-A3B MoE)以及四个针对下游具身任务(即RynnBrain-Nav、RynnBrain-Plan和RynnBrain-VLA)或复杂空间推理任务(即RynnBrain-CoP)进行后训练的变体。在20个具身基准测试和8个通用视觉理解基准上的广泛评估表明,我们的RynnBrain基础模型以显著优势大幅超越现有具身基础模型。后训练模型套件进一步验证了RynnBrain基础模型的两大潜力:(一)实现物理接地的推理与规划;(二)作为强预训练骨干网络,可高效适配多样化具身任务。
计算机辅助设计(CAD)为工程制造领域提供了可快速编辑的建模方案。随着人工智能技术的进步,各类CAD任务现已能够实现全自动化。然而,数据瓶颈制约了发展进程:现有公共数据集大多仅包含草图拉伸序列,缺乏复杂操作、多操作组合及设计意图,导致模型微调效果受限。当前尝试通过冻结视觉语言模型规避此问题的方法,由于基础模型对三维空间理解有限,往往只能生成简单或无效程序。我们提出CADEvolve——一种基于演化机制的流程与数据集,该方法从简单几何基元出发,通过VLM引导的编辑验证机制,逐步构建出具备工业级复杂度的CAD程序。最终生成8,000个以可执行CadQuery参数化生成器表达的复杂零件。经过多阶段后处理与数据增强,我们获得了包含130万条脚本的统一数据集,每条脚本均配有渲染几何体并完整覆盖CadQuery操作集。基于CADEvolve微调的VLM在Image2CAD任务中,于DeepCAD、Fusion 360和MCB三大基准测试上均取得了最先进的性能表现。
人形机器人在开放环境中对任意物体进行视觉移动操作,需要精确的末端执行器控制能力以及通过视觉输入(如RGB-D图像)对场景的泛化理解能力。现有方法主要基于真实世界的模仿学习,由于大规模训练数据采集困难,其泛化能力存在局限。本文提出一种名为HERO的新范式,通过将大视觉模型的强泛化能力/开放词汇理解能力与仿真训练获得的精准控制性能相结合,实现人形机器人的物体移动操作。我们通过设计精准的残差感知末端执行器追踪策略实现这一目标——该策略融合了经典机器人学与机器学习方法:a)利用逆运动学将残差末端目标转换为参考轨迹;b)通过神经网络前向运动学模型实现精确运动学计算;c)目标调整机制;d)重规划功能。这些创新共同将末端执行器追踪误差降低至原水平的3.2倍。基于该精准追踪器,我们构建了模块化移动操作系统,利用开放词汇大视觉模型实现强大的视觉泛化能力。该系统可适应从办公室到咖啡店等多样真实环境,在43厘米至92厘米不同高度的台面上稳定操作各类日常物品(如马克杯、苹果、玩具等)。仿真与真实场景下的系统化模块测试及端到端实验验证了所提设计的有效性。我们相信本文的突破性进展将为训练人形机器人操作日常物品开辟新途径。
在自利智能体间实现合作始终是多智能体强化学习领域的核心挑战。最新研究表明,当"学习感知型"智能体能够考虑并塑造其对手的学习动态时,可诱导出相互合作行为。然而,现有方法通常依赖于对对手学习规则的硬编码假设(这些假设往往不一致),或强制要求"朴素学习者"在快速时间尺度上进行更新,而"元学习者"则观察这些更新。本文证明,序列模型的上下文学习能力可在无需硬编码假设或显式时间尺度分离的情况下实现对手学习感知。我们发现,通过让序列模型智能体与多样化对手分布进行对抗训练,可自然诱导出上下文最优响应策略,这些策略在快速的情节内时间尺度上发挥着学习算法的作用。研究显示,先前工作中发现的合作机制——即易受勒索胁迫的特性驱动相互塑造——在此设置中自然涌现:上下文适应使智能体易受勒索胁迫,而由此产生的相互压力会塑造对手的上下文学习动态,最终促使合作行为的学习形成。我们的结果表明,基于序列模型的标准去中心化强化学习结合对手多样性,为习得合作行为提供了一条可扩展的路径。
我们推出大规模音频嵌入基准(MAEB),该基准涵盖语音、音乐、环境声音及跨模态音频-文本推理四大领域的30项任务,支持100多种语言。通过对50余个模型进行评估,我们发现没有单一模型能在所有任务中占据主导地位:对比式音频-文本模型在环境声音分类(如ESC50)中表现优异,但在多语言语音任务(如SIB-FLEURS)中接近随机水平;而语音预训练模型则呈现相反模式。聚类任务对所有模型仍具挑战性,即使最优模型也仅取得中等结果。我们发现擅长声学理解的模型在语言任务中往往表现不佳,反之亦然。研究还表明,音频编码器在MAEB上的表现与其在音频大语言模型中的应用效果高度相关。MAEB源自包含98项任务的MAEB+数据集,其设计在保持任务多样性的同时降低了评估成本,并可集成至MTEB生态系统,实现文本、图像与音频模态的统一评估。我们在https://github.com/embeddings-benchmark/mteb 开源了MAEB基准、全部98项任务、代码及排行榜。
当前对大型语言模型的事实性评估将所有错误等同视之,难以区分错误究竟源于知识缺失(空置书架)还是已有知识的提取障碍(遗失钥匙)。我们提出一种基于事实而非问题层面的行为分析框架,通过两个维度刻画每个事实的特性:首先是知识是否被编码,其次是其可及性程度——完全无法回忆、可直接回忆,或需借助推理计算(思考)才能回忆。为支持此类分析,我们开发了WikiProfile基准测试集,该数据集通过基于网络搜索的提示型LLM自动构建而成。基于13个LLM生成的400万条响应分析发现:前沿模型在我们的基准集上知识编码已接近饱和,GPT-5和Gemini-3对事实的编码率达到95%-98%。然而知识提取仍是主要瓶颈——许多曾被归因于知识缺失的错误实则源于提取失败。这些提取失败具有系统性特征,且对长尾事实和逆向问题的影响尤为显著。最后我们证明,思考机制能提升回忆效能,可挽回相当比例的提取失败案例,这表明未来性能提升可能更依赖于改进模型对已编码知识的利用方式,而非单纯扩大模型规模。
人工智能代理正被日益广泛地部署以执行重要任务。尽管标准基准测试中不断攀升的准确率分数显示出快速进步,但许多代理在实践中仍持续出现故障。这种差异揭示了当前评估体系的基本局限:将代理行为压缩为单一成功指标的做法,掩盖了关键的操作缺陷。尤其值得注意的是,这种评估忽略了代理在不同运行中的行为一致性、抗干扰能力、故障可预测性以及错误严重程度限制等要素。基于安全关键工程的理念,我们通过提出12个具体指标构建了整体性能画像,从一致性、鲁棒性、可预测性和安全性四个关键维度解构代理可靠性。通过对14种代理模型在两个互补基准测试中的评估,我们发现近期能力提升仅带来可靠性的微小改善。通过揭示这些持续存在的局限,我们的指标体系在补充传统评估方法的同时,为理解代理如何运行、衰退和失效提供了分析工具。
当前最先进的视觉-语言-动作(VLA)模型虽在语义泛化方面表现出色,却难以在陌生环境中泛化至未见的物理运动。我们提出DreamZero——一种基于预训练视频扩散主干网络构建的世界行动模型(WAM)。与VLA不同,WAM通过预测未来世界状态与动作来学习物理动态,将视频作为世界演变过程的密集表征。通过联合建模视频与动作,DreamZero能够从异构机器人数据中高效学习多样化技能,无需依赖重复演示。真实机器人实验表明,该模型在新任务和新环境中的泛化能力较顶尖VLA提升逾两倍。关键突破在于,通过模型与系统优化,我们实现了140亿参数自回归视频扩散模型的7Hz实时闭环控制。最后,我们展示了两种跨具身迁移形式:仅使用其他机器人或人类的视频演示,仅需10-20分钟数据就能在未知任务上获得超过42%的相对性能提升;更令人惊讶的是,DreamZero实现了小样本具身适应——仅需30分钟操作数据即可迁移至新具身形态,同时保持零样本泛化能力。
快速权重架构通过保持与上下文长度无关的恒定内存开销,为长上下文建模提供了基于注意力机制的Transformer模型的有力替代方案。然而,其潜力受限于下一词预测训练范式——该范式仅优化单词预测,而忽略前缀之后多词间的语义连贯性。因此,快速权重模型(通过动态更新参数存储上下文信息)会学习到次优表征,难以捕捉长程依赖关系。我们提出REFINE框架(基于下一序列预测的强化快速权重),采用强化学习方法在下一序列预测目标下训练快速权重模型。REFINE通过预测熵选择信息量丰富的词位,生成多词展开序列,分配自监督的序列级奖励,并采用组相对策略优化进行模型优化。该框架可应用于预训练语言模型的完整训练周期:中期训练、后期训练及测试时训练。我们在LaCT-760M和DeltaNet-1.3B上的实验表明,REFINE在"大海捞针"检索、长上下文问答以及LongBench多样任务中均持续优于基于下一词预测的监督微调。REFINE为提升快速权重架构的长上下文建模能力提供了高效通用的解决方案。
我们推出SAM 3D人体模型(3DB),这是一个支持提示的单图像全身三维人体网格重建模型,在多样化真实场景中展现出最先进的性能、强大的泛化能力以及稳定的精度。3DB可同步估测人体躯干、足部与手部的姿态,是首个采用新型参数化网格表征——动量人体骨骼系统(MHR)的模型,该系统实现了骨骼结构与表面形态的解耦。3DB采用编码器-解码器架构,支持包括2D关键点与掩码在内的辅助提示,使用户能像操作SAM系列模型一样进行引导式推理。我们通过融合人工关键点标注、可微分优化、多视角几何以及稠密关键点检测的多阶段标注流程,获得了高质量标注数据。我们的数据引擎能高效筛选和处理数据以确保多样性,特别收录非常规姿态与罕见成像条件。我们还提出了按姿态与外观分类组织的新型评估数据集,支持对模型行为进行精细化分析。实验表明,无论是在定性用户偏好研究还是传统定量分析中,本方法均优于现有技术,展现出卓越的泛化能力与显著提升。3DB与MHR均已开源。
分布匹配蒸馏(DMD)是一种高效的加速范式,但其在"禁区"(即真实教师提供不可靠指导而虚拟教师排斥力不足的区域)中的稳定性常受影响。本研究提出统一优化框架,将现有技术重新阐释为规避这些污染区域的隐式策略。基于此洞见,我们引入自适应匹配蒸馏(AMD),该自校正机制利用奖励代理显式检测并逃离禁区。AMD通过结构信号分解动态优先处理校正梯度,并采用排斥势场锐化技术构建陡峭能量壁垒以防止失败模式坍缩。在图像与视频生成任务(如SDXL、Wan2.1)和严格基准测试(如VBench、GenEval)上的大量实验表明,AMD显著提升了样本保真度与训练鲁棒性。例如在SDXL模型上,AMD将HPSv2分数从30.64提升至31.25,超越现有最优基线。这些发现证实,在禁区内显式修正优化轨迹对于突破少步生成模型的性能瓶颈至关重要。
当代人工智能体虽功能强大,却常难以契合用户独特且动态变化的个性化需求。现有方案通常依赖静态数据集,或通过交互历史训练隐式偏好模型,或将用户画像编码于外部记忆。然而这些方法对新用户及随时间演变的偏好适应性不足。我们提出基于人类反馈的个性化智能体(PAHF)框架,该框架通过显式的用户专属记忆库实现在线学习与持续个性化。PAHF构建了三步循环机制:(1)行动前主动澄清以消除歧义;(2)基于记忆库检索的偏好执行行动;(3)整合行动后反馈以更新记忆库,应对偏好漂移。为评估该能力,我们开发了四阶段测试协议及具身操作与在线购物双基准测试。这些基准可量化智能体从零学习初始偏好及后续适应角色转换的能力。理论分析与实证结果表明,显式记忆库与双反馈通道的融合至关重要:PAHF学习速度显著提升,持续超越无记忆与单通道基线方案,既降低了初始个性化误差,又能快速适应偏好转变。
长周期多模态智能体依赖外部记忆,然而基于相似性的检索常会返回过时、低可信度或相互矛盾的记忆项,从而引发过度自信的错误。我们提出多模态记忆智能体(MMA),通过结合信源可信度、时间衰减和冲突感知的网络共识,为每个检索到的记忆项分配动态可靠性评分,并利用该信号重新加权证据,在支持不足时主动弃权。我们还开发了MMA-Bench——一个通过程序化生成的基准测试平台,用于在可控的说话者可靠度及结构化图文矛盾条件下研究信念动态。借助该框架,我们发现了"视觉安慰剂效应",揭示基于RAG的智能体如何从基础模型中继承潜在的视觉偏见。在FEVER数据集上,MMA在保持基准准确率的同时将方差降低35.2%并提升选择性效用;在安全导向的LoCoMo配置中,可操作准确率得到提升且错误答案减少;在MMA-Bench上,MMA在视觉模式下达到41.18%的B类准确率,而基线模型在相同协议下崩溃至0.0%。代码地址:https://github.com/AIGeeksGroup/MMA。
我们推出Nexus适配器——一种面向基于扩散框架的结构保持条件生成(SPCG)的新型文本引导高效适配器。近年来,结构保持方法通过采用基础模型处理提示条件、适配器处理结构输入(如草图或深度图),在条件图像生成领域取得了显著成果。然而这类方法存在明显缺陷:适配器有时需配备与基础架构等量的参数,导致效率低下;且由于扩散模型本身训练成本高昂,参数翻倍将造成极大资源浪费。更重要的是,现有适配器无法感知输入提示,导致其仅能优化结构输入而无法协同提示信息。为突破这些局限,我们提出了两种由提示与结构输入共同引导的高效适配器:Nexus Prime与Nexus Slim。每个Nexus模块通过交叉注意力机制实现丰富的多模态条件融合,使适配器在保持结构的同时能深度理解输入提示。大量实验表明,Nexus Prime适配器仅需增加800万参数即可显著提升性能,优于基线模型T2I-Adapter;而轻量级版本Nexus Slim更以减少1800万参数的配置,仍达到业界最优效果。代码已开源:https://github.com/arya-domain/Nexus-Adapters
人类感知的核心要素是情境感知能力,即理解自身与周围物理环境的关系并基于情境推理可能行为的能力。然而,现有多模态基础模型(MFM)的评测基准大多关注以环境为中心的空间关系(场景中物体间的关系),而忽视了需要基于智能体视角、姿态和运动进行推理的观察者中心关系。为弥补这一空白,我们推出SAW-Bench(现实世界情境感知基准),这是一个利用真实世界视频评估具身情境感知能力的新型基准。该基准包含786段使用Ray-Ban Meta(第二代)智能眼镜自摄的涵盖多样室内外环境的视频,以及2,071组人工标注的问答对。通过六类不同的感知任务,该基准可探测模型对观察者中心关系的理解能力。综合评估显示,即使表现最佳的MFM模型Gemini 3 Flash,其与人类表现的差距仍达37.66%。除这一差距外,深度分析还揭示了若干重要发现:例如,虽然模型能利用具身视频中的部分几何线索,但往往无法推断连贯的相机几何参数,导致系统性空间推理错误。我们将SAW-Bench定位为具身空间智能的评测基准,推动研究从被动观察转向对物理 grounded 的观察者中心动态的理解。
我们提出了一种新颖的不确定性感知多模态分割框架,该框架同时利用放射影像与相关临床文本实现精准医疗诊断。我们设计了配备轻量级状态空间混合器(SSMix)的模态解码注意力块(MoDAB),以实现高效的跨模态融合和长程依赖建模。为在模糊场景下指导学习,我们提出了谱熵不确定性(SEU)损失函数,该函数将空间重叠度、频谱一致性和预测不确定性共同纳入统一目标。在图像质量较差的复杂临床场景中,这一设计显著提升了模型的可靠性。在多个公开医学数据集(QATA-COVID19、MosMed++和Kvasir-SEG)上的大量实验表明,我们的方法在实现卓越分割性能的同时,计算效率显著优于现有前沿(SoTA)方法。实验结果凸显了不确定性建模与结构化模态对齐在视觉-语言医疗分割任务中的重要性。代码地址:https://github.com/arya-domain/UA-VLS
多模态大语言模型(MLLMs)显著推动了具身智能的发展,将其作为机器人智能的基准测试工具已成为关键趋势。然而现有框架主要局限于单臂操作任务,未能捕捉双手协作(如抬起重锅)所需的时空协调能力。为此,我们提出BiManiBench——一个分层评估框架,从三个维度检验MLLMs性能:基础空间推理、高层动作规划与低层末端执行器控制。该框架通过隔离双臂可达性、运动学约束等独特挑战,有效区分感知幻觉与规划失误。对30余个前沿模型的分析表明:尽管MLLMs具备较强的高层推理能力,但在双臂空间定位与控制方面表现不佳,频繁出现相互干扰和时序错误。这些发现揭示了当前范式对运动学互约束理解的不足,强调未来研究需聚焦于双臂防碰撞机制与细粒度时序规划。
生成式大型视觉语言模型(LVLM)近期取得显著性能突破,用户规模持续快速增长。然而在长上下文多轮对话场景下的模型安全性研究仍存空白。本文研究一种现实攻击场景:攻击者将篡改图像上传至网络/社交媒体,良性用户下载该图像并作为LVLM的输入。我们提出的新型隐蔽视觉记忆注入(VMI)攻击可使模型在正常指令下表现正常,但当用户输入触发指令时,LVLM会输出预设目标信息以操纵用户(如用于恶意营销或政治宣传)。相较于以往聚焦单轮攻击的研究,VMI在用户进行多轮长对话后依然有效。我们在多个最新开源LVLM上验证了该攻击的有效性,由此证明通过篡改图像在多轮对话中实现大规模用户操纵具有可行性,亟需提升LVLM对此类攻击的鲁棒性。相关源代码已发布于https://github.com/chs20/visual-memory-injection。
阿片类药物危机持续肆虐全球社区,给医疗系统带来巨大压力,破坏家庭稳定,亟需高效的计算解决方案。为应对这一致命危机,图学习方法已成为模拟复杂药物相关现象的重要范式。然而当前存在显著空白:缺乏能够在真实阿片危机场景中系统评估这些方法的综合性基准。为此,我们推出首个综合性阿片危机基准OPBench,涵盖三大关键应用领域的五个数据集:基于医疗理赔的阿片过量检测、基于数字平台的非法药物交易识别,以及基于饮食模式的药物滥用预测。具体而言,OPBench整合了异质图和超图等多样化图结构,以保留药物数据间丰富复杂的关系信息。针对数据稀缺问题,我们联合领域专家与权威机构,在遵循隐私和伦理准则的前提下进行数据采集与标注。此外,我们建立了包含标准化协议、预设数据划分和可复现基线模型的统一评估框架,以促进图学习方法的公平系统比较。通过大量实验,我们深入分析了现有图学习方法的优势与局限,为未来应对阿片危机的研究提供了可操作的见解。项目源码与数据集详见https://github.com/Tianyi-Billy-Ma/OPBench。