每日精选AI研究论文及翻译
当故事讲述者遗忘了自己的故事会发生什么?当前大型语言模型(LLMs)已能生成数万字的长篇叙事,却常常难以保持整体一致性。在生成长篇叙事时,这些模型可能与其已确立的事实、角色特征和世界观设定产生矛盾。现有的故事生成基准主要关注情节质量和流畅度,对一致性错误的研究尚不充分。为填补这一空白,我们推出ConStory-Bench——专为评估长篇故事生成中叙事一致性而设计的基准框架。该框架涵盖四大任务场景下的2000个提示词,定义了包含19个细分类别的五类错误分类体系。我们还开发了ConStory-Checker自动化检测流程,能够识别矛盾点并将每个判断锚定于显性文本证据。通过五大研究问题对多种LLMs进行评估后,我们发现一致性错误呈现明显规律性:最常出现于事实与时间维度,高发于叙事中段,集中于词元级熵值较高的文本片段,且特定错误类型存在共生现象。这些发现可为提升长篇叙事生成一致性的后续研究提供指引。项目页面详见:https://picrew.github.io/constory-bench.github.io/。
对空间智能的追求从根本上依赖于大规模、细粒度的三维数据。然而,现有方法主要通过从有限的手动标注数据集中生成问答对来构建空间理解基准,而非系统性地从原始网络数据中标注新的大规模三维场景。这导致其可扩展性严重受限,且模型性能进一步受到这些狭窄数据集固有领域差异的阻碍。 本文提出Holi-Spatial——首个完全自动化构建的大规模空间感知多模态数据集。该数据集通过我们设计的数据处理流程,无需人工干预即可从原始视频输入中构建,支持从带有渲染深度图的几何精确三维高斯溅射重建,到物体级和关系型语义标注的多层次空间监督,并包含对应的空间问答对。 基于系统化构建流程,我们进一步创建了首个大规模高质量三维语义数据集Holi-Spatial-4M,包含1.2万个优化后的三维高斯溅射场景、130万个二维掩码、32万个三维边界框、32万个实例描述、120万个三维定位实例,以及覆盖几何推理、关系推理和语义推理等多样化任务的120万个空间问答对。 Holi-Spatial在数据构建质量上展现出卓越性能,在ScanNet、ScanNet++和DL3DV等数据集上显著优于现有前馈方法和逐场景优化方法。此外,基于该数据集对视觉语言模型进行空间推理任务的微调,也带来了模型性能的显著提升。
前馈式几何基础模型在短窗口重建中表现优异,但将其扩展至分钟级视频时,受限于二次注意力复杂度或循环设计中有限的有效内存。我们提出LoGeR(长上下文几何重建)——一种无需后优化即可将稠密三维重建扩展至超长序列的新架构。LoGeR通过分块处理视频流,利用强双向先验实现高保真度的块内推理。为应对分块边界连贯性这一关键挑战,我们设计了基于学习的混合记忆模块。该双组件系统结合了参数化测试时训练(TTT)记忆模块以锚定全局坐标系防止尺度漂移,同时采用非参数化滑动窗口注意力(SWA)机制保存未压缩上下文以实现高精度邻接对齐。值得注意的是,该记忆架构使LoGeR仅需在128帧序列上训练,即可在推理时泛化至数千帧。在标准基准和重新构建的VBR数据集(含高达1.9万帧序列)上的评估表明,LoGeR显著超越现有最优前馈方法——将KITTI上的ATE降低超74%——并在前所未有的时间跨度上实现鲁棒且全局一致的重建。
无监督可验证奖励强化学习(URLVR)通过无需真实标签的奖励机制,为突破大语言模型训练的监督瓶颈提供了可行路径。近期研究利用模型内在信号已展现出初步成效,但其潜力与局限尚不明确。本文重新审视URLVR框架,从分类体系、理论推演到系统实验展开全面分析。我们首先依据奖励来源将URLVR方法划分为内在型与外部型,进而建立统一理论框架,揭示所有内在型方法本质上都在强化模型的初始分布。这种锐化机制在初始置信度与正确性一致时有效,但二者偏离时会导致灾难性失效。通过系统实验发现,内在奖励在不同方法中均呈现先升后降的规律,其崩溃时机由模型先验决定而非工程优化。尽管存在扩展局限,我们发现内在奖励在小数据集测试时训练中仍具价值,并提出"模型崩溃步数"作为衡量模型先验的实用指标,为强化学习可训练性提供判据。最后我们探索基于计算不对称性的外部奖励方法,初步证据表明其可能突破置信度-正确性的天花板。本研究既划定了内在型URLVR的能力边界,也为可扩展替代方案指明了方向。
随着测试时扩展技术的发展,大型推理模型展现出卓越性能,该技术通过生成多个候选响应并选择最可靠答案来提升预测准确率。尽管已有研究分析指出,置信度等内部模型信号可部分指示响应正确性,并与准确率存在分布相关性,但此类分布信息尚未被充分用于指导答案选择。基于此,我们提出DistriVoting方法,在投票过程中将分布先验作为置信度之外的补充信号。具体而言,我们的方法(1)首先利用高斯混合模型将混合置信度分布分解为正负两个分量,(2)随后基于这两个分量中的正负样本应用拒绝过滤器,以缓解分布间的重叠问题。此外,为从分布本身角度进一步缓解重叠现象,我们提出SelfStepConf方法,通过使用步骤级置信度动态调整推理过程,增强两个分布间的分离度,从而提升投票中置信度的可靠性。在16个模型和5个基准测试上的实验表明,我们的方法显著优于现有最优方法。
近期,统一多模态模型(UMMs)的进展显著推动了文本到图像(T2I)生成技术,尤其是通过整合思维链(CoT)推理机制。然而,现有基于CoT的T2I方法主要依赖抽象的自然语言规划,难以满足复杂空间布局、结构化视觉元素和密集文本内容所需的精确性。本文提出CoCo(代码化思维链)框架,通过将推理过程表示为可执行代码,实现图像生成过程中显式且可验证的中间规划。给定文本提示时,CoCo首先生成可执行代码来定义场景的结构化布局,随后在沙箱环境中执行代码生成确定性草图图像,最后通过细粒度图像编辑对草图进行优化以生成高保真结果。为支持该训练范式,我们构建了CoCo-10K数据集,包含精心设计的结构化草图-成品图像对,用于指导模型学习结构化草图构建与视觉校正优化。在StructT2IBench、OneIG-Bench和LongText-Bench上的实验表明,CoCo相比直接生成方法分别提升68.83%、54.8%和41.23%,同时优于其他基于CoT的生成方法。这些结果证明,可执行代码是一种有效可靠的推理范式,能够实现精准、可控且结构化的文本到图像生成。代码已开源:https://github.com/micky-li-hd/CoCo
统一扩散编辑器通常依赖固定的共享主干网络处理多样化任务,存在任务干扰问题且难以适应异构需求(如局部与全局编辑、语义与光度调整)。当前主流的ControlNet与OmniControl变体通过静态拼接或加法适配器融合多模态条件信号(如文本、掩码、参考图像),但无法动态调节冲突模态的优先级,导致掩码边界色彩渗透、身份或风格漂移、多条件输入下行为不可控等问题。为此,我们提出条件感知专家路由框架(CARE-Edit),将模型计算与特定编辑能力精准对齐。该框架核心包含轻量级潜在注意力路由器,其根据多模态条件与扩散时间步将编码后的扩散令牌动态分配给四个专业专家——文本、掩码、参考图像与基础模型:(i)掩码重绘模块首先优化用户定义的粗糙掩码,生成精确的空间引导;(ii)路由器采用稀疏Top-K选择机制,动态分配计算资源至最相关专家;(iii)潜在混合模块随后融合各专家输出,将语义、空间及风格信息协调一致地整合至基础图像。实验验证CARE-Edit在上下文编辑任务(包括擦除、替换、文本驱动编辑和风格迁移)中表现优异。实证分析进一步揭示了专业专家的任务特异性行为,证明了动态条件感知处理对于缓解多条件冲突的重要性。
自回归扩散模型为生成长度理论上无限的视频提供了有前景的框架。然而,如何保持时间连续性同时避免误差累积导致的渐进性质量退化,仍是主要挑战。为确保连续性,现有方法通常依赖高度去噪的上下文帧,但这一做法会以高置信度传播预测误差,反而加剧质量退化。本文提出高度纯净的上下文并非必要。受双向扩散模型启发——该模型通过在共享噪声水平下对帧进行去噪来保持连贯性,我们认为在当前块相同噪声水平下对上下文进行条件化,既能提供足够的时间一致性信号,又可有效抑制误差传播。基于此,我们提出HiAR:一种分层去噪框架,它颠覆了传统生成顺序——不是在每个去噪步骤顺序完成各个块,而是在所有块上同步进行因果生成,确保每个块始终处于相同噪声水平的上下文条件下。这种分层结构天然支持流水线并行推理,在我们的4步设置中实现了1.8倍的实际加速。进一步发现,该范式下的自推演蒸馏会放大逆向KL目标固有的低运动捷径倾向。为此,我们引入双向注意力模式下的正向KL正则器,在保持因果推理运动多样性的同时不干扰蒸馏损失。在VBench(20秒生成)测试中,HiAR取得了所有对比方法中的最高综合得分与最低时间漂移。
随着语言模型从对话助手逐步发展为能够进行多步骤推理和工具调用的长程智能体,现有基准测试仍主要局限于结构化或应试型任务,难以满足真实世界的专业需求。为此,我们推出百万基准(OneMillion-Bench)——一个涵盖法律、金融、工业、医疗保健与自然科学五大领域共400项专家级任务的评估体系,专为检验智能体在经济决策场景中的表现而构建。与既往研究不同,该基准要求智能体检索权威信源、辨析矛盾证据、运用领域特定规则并作出约束性决策,其正确性既取决于最终答案,更依赖于推理过程的严谨性。我们采用基于量规的评估方案,从事实准确性、逻辑连贯性、实践可行性与专业合规性四个维度进行评分,聚焦专家级问题以确保对不同智能体的有效区分。百万基准通过构建统一测试平台,为评估领域密集型场景下智能体的可靠性、专业深度与实践就绪度提供了全新标准。
虽然基于自回归(AR)大语言模型的ASR系统具备较强准确率,但其序列化解码机制限制了并行性并导致较高延迟。我们提出非自回归(NAR)方法NLE,将语音识别定义为条件式文本编辑任务,实现完全并行预测。NLE首先从预训练语音编码器中提取声学嵌入和初始假设,再通过采用潜在对齐目标训练的双向LLM编辑器优化假设。通过交错填充策略利用Transformer的恒等映射偏置特性,使模型专注于修正而非完全重构。在Open ASR评测平台上,NLE++以1630的RTFx(实时因子倒数)实现5.67%的平均词错误率。在单语句场景下,NLE相比AR基线实现27倍加速,展现出实时应用潜力。
我们提出AutoResearch-RL框架:该框架中的强化学习代理可在无人监督的情况下开展开放式神经网络架构与超参数研究,直至终止判定器发出收敛信号或资源耗尽时才会停止运行。在每一步迭代中,代理会对目标训练脚本提出代码修改方案,在固定挂钟时间预算内执行该方案,观察基于验证集字节熵(val-bpb)生成的标量奖励,并通过近端策略优化(PPO)更新其策略。 核心设计理念在于三重关注点的分离:一是保证实验间可比性的固化环境(数据管道、评估协议与常量);二是代表代理可编辑状态的动态目标文件(train.py);三是通过积累实验结果轨迹来指导后续提案的元学习器(即RL代理本身)。 我们将该框架形式化为马尔可夫决策过程,在温和假设下推导出收敛保证,并在单GPU纳米聊天模型预训练基准测试中实证验证:经过约300次夜间迭代后,AutoResearch-RL发现的配置方案达到或超越了人工调优基线水平,且全程无需人工干预。
在庞大工具生态系统中运行的智能体系统,必须在弱监督或不可验证监督下规划并执行长周期工作流。虽然前沿模型通过规模优势和长上下文窗口缓解了这些挑战,但小参数语言模型(SLM)仍显脆弱:急切加载工具会导致上下文饱和,执行错误随时间累积,稀疏奖励则限制学习效率。我们提出ATLAS强化微调框架,通过让SLM学习上下文获取与动作执行的策略,使其能在大规模工具空间环境中有效运作。本方法包含两大核心贡献:首先将上下文控制与执行结构转化为可学习的决策,结合迭代式工具加载与程序化工具编排机制,以约束上下文增长并稳定长周期任务轨迹;其次提出基于量规的强化微调,将任务成功分解为结构化、任务对齐的评估标准,利用小型评判模型实现可扩展训练。在MCP基准测试中,这些设计选择相比通用强化学习基线带来显著且稳定的性能提升,使40亿参数SLM在更严格的参数和上下文预算下接近前沿智能体的表现。
扩散模型通过噪声使图像退化,而逆转此过程可揭示跨时间步的信息层级结构。尺度空间理论则通过低通滤波展现出类似的层级特性。我们正式建立了这种联系,并证明高度噪声化的扩散状态所包含的信息量不超过经下采样的小尺寸图像——这引发了一个问题:为何必须对全分辨率图像进行处理?为解决此问题,我们将尺度空间融合进扩散过程,构建了具有广义线性退化特性及实用实现的一系列扩散模型。采用下采样作为退化方法,我们提出了尺度空间扩散模型。为支持该模型,我们设计了Flexi-UNet——一种UNet变体,仅使用网络必要部分即可实现分辨率保持与分辨率提升的去噪操作。我们在CelebA和ImageNet数据集上评估了该框架,并分析了其在不同分辨率与网络深度下的缩放特性。项目网站(https://prateksha.github.io/projects/scale-space-diffusion/)已公开可用。
当前图形用户界面(GUI)智能体主要运行在被动响应范式下:用户必须提供明确指令才能驱动智能体执行任务。然而,真正智能的AI助手应当具备主动性,能够直接从连续视觉输入(如移动设备或桌面屏幕截图)中预判用户意图,无需显式提示即可提供适时建议。向这种主动范式的转型面临重大挑战:真实场景的屏幕活动很少呈线性发展,而是由充满噪声浏览、无意义操作和多线程任务切换的长周期轨迹构成。为弥补这一空白,我们推出PIRA-Bench(主动意图推荐智能体基准)——一个基于连续弱监督视觉输入评估多模态大语言模型(MLLMs)的新型基准。与被动响应数据集不同,PIRA-Bench具有包含多重交织意图的复杂轨迹,以及带有不同用户画像背景的噪声片段,要求智能体在适应用户偏好的同时检测可操作事件。此外,我们提出PIRF基线框架——一种具备记忆感知的状态追踪架构,使通用MLLMs能够管理多任务线程并处理误导性视觉输入。PIRA-Bench为构建鲁棒的主动式GUI个人助手迈出了重要一步。
训练大型语言模型作为自主智能体通常从模仿学习开始,但这种范式仅教会智能体如何行动而不理解行动原因:智能体从未将成功行动与次优选择进行对比,因而缺乏对行动质量的认知。近期研究尝试通过引入专家行动与替代行动的对比式自我反思监督机制来解决这一问题。然而其训练范式本质上仍是模仿学习:模型只是模仿预先构建的反思文本,而非学会自主推理。我们提出关键性智能体训练(ACT),这是一种通过强化学习训练智能体在替代行动中识别更优选择的范式。通过奖励模型判断的正确性,ACT驱动模型自主形成对行动质量的推理能力,产生真正的自我反思而非简单模仿。在三个具有挑战性的智能体基准测试中,ACT与不同后训练方法结合时均能持续提升智能体性能,相较模仿学习平均提升5.07个点,相较强化学习平均提升4.62个点。与通过知识蒸馏注入反思能力的方法相比,ACT也展现出明显优势,平均提升达2.42个点。此外,ACT在智能体基准测试中展现出强大的分布外泛化能力,并在未使用任何推理专项训练数据的情况下提升通用推理基准性能,凸显了本方法的独特价值。这些结果表明ACT是开发更具反思能力的高效大模型智能体的可行路径。
当前视频生成模型存在高计算延迟问题,导致实时应用成本过高。本文通过利用视频潜在块中固有的时间冗余性来解决这一局限,提出了基于注意力恢复的潜在帧间剪枝框架。该框架能检测并跳过重复潜在块的重计算过程,同时创新性地引入注意力恢复机制,通过近似被剪枝标记的注意力值来消除直接应用剪枝方法产生的视觉伪影。实验表明,本方法将视频编辑吞吐量提升1.45倍,在NVIDIA A6000上平均达到12.2 FPS,优于基线模型的8.4 FPS。所提方法在保持生成质量的同时无需额外训练即可无缝集成至现有模型,有效弥合了传统压缩算法与现代生成流水线之间的鸿沟。
大型语言模型(LLMs)虽已展现出强大的通用能力,但由于金融领域存在密集的专业术语、严格的数值推理要求以及对事实错误的低容忍度,其实际部署仍面临挑战。我们通过受控实证研究表明,在垂直专业领域中,模型性能主要取决于后训练数据的质量、难度及可验证性特征。本文提出ODA-Fin-SFT-318k数据集(通过多阶段蒸馏与验证构建的高质量思维链监督数据)和ODA-Fin-RL-12k数据集(针对平衡奖励精度与任务多样性的高难度可验证任务精心设计)。采用标准监督微调(SFT)和强化学习(RL)流程,我们发现:高质量思维链蒸馏能为SFT阶段奠定坚实基础,而基于难度与可验证性的采样策略可提升RL的泛化能力。在涵盖通用金融任务、情感分析和数值推理的九项基准测试中,我们的ODA-Fin-RL-8B模型持续超越同规模开源金融LLM的最先进水平。我们公开ODA-Fin-SFT-318k、ODA-Fin-RL-12k数据集及训练模型,以推动以数据为中心的金融AI研究发展。
尽管少步数生成模型已能以显著较低成本实现强大的图像与视频生成,适用于少步数模型的通用强化学习范式仍是一个悬而未决的难题。现有针对少步数扩散模型的强化学习方法严重依赖可微分奖励模型的反向传播,从而排除了大多数重要的现实世界奖励信号(如人类二元喜好度、物体数量等不可微分奖励)。为有效整合不可微分奖励以改进少步数生成模型,我们提出了TDM-R1——一种基于领先少步数模型Trajectory Distribution Matching (TDM) 的新型强化学习范式。TDM-R1将学习过程解耦为代理奖励学习与生成器学习两个阶段,并开发了沿TDM确定性生成轨迹获取逐步奖励信号的实用方法,形成统一的强化学习后训练方案,显著提升了少步数模型处理通用奖励的能力。我们在文本渲染、视觉质量与偏好对齐等维度开展了广泛实验,所有结果均表明TDM-R1是少步数文生图模型的强力强化学习范式,在领域内与跨领域指标上均达到最先进的强化学习性能。此外,TDM-R1还能有效适配近期强劲的Z-Image模型,仅用4次网络函数评估即可持续超越其100步与少步数变体。项目页面:https://github.com/Luo-Yihong/TDM-R1
视觉变换器(ViTs)在分布偏移下性能常出现退化,因其倾向于依赖虚假相关性(如背景线索)而非语义特征。现有正则化方法通常基于简单的前景-背景掩码,难以捕捉定义物体的细粒度语义概念(如“鸟类”的“长喙”和“翅膀”),导致对分布偏移的鲁棒性有限。为此,我们提出一种新颖的微调框架,将模型推理引导至概念级语义层面。该方法通过优化模型内部相关性图谱,使其与空间锚定的概念掩码对齐。这些掩码无需人工标注即可自动生成:首先采用基于大语言模型的无标签方法提出类别相关概念,随后通过视觉语言模型进行分割。微调目标旨在使相关性聚焦于概念区域,同时抑制对虚假背景区域的关注。值得注意的是,该过程仅需少量图像且使用半数数据集类别。在五个分布外基准测试上的大量实验表明,我们的方法能提升多种ViT基模型的鲁棒性。此外,实验证明生成的相关性图谱与语义物体部件具有更强一致性,为构建更鲁棒、可解释的视觉模型提供了可扩展路径。最后,我们验证了概念引导掩码相比传统分割图谱能为模型鲁棒性提供更有效的监督,从而支撑了核心假设。
冷启动初始化阶段在训练多模态大推理模型(MLRMs)中具有关键作用,但其机制尚未得到充分理解。为分析该阶段,我们提出视觉注意力分数(VAS)——一种基于注意力的度量指标,用于量化模型对视觉标记的关注程度。研究发现推理性能与VAS呈强相关性(r=0.9616):VAS越高的模型在多模态推理任务中表现越优异。令人惊讶的是,多模态冷启动未能提升VAS,其注意力分布与基础模型相近;而纯文本冷启动则能显著提高VAS。我们将这一反直觉现象命名为"惰性注意力定位"。为验证其因果作用,我们设计了无需训练的直接干预方法,在推理过程中调控注意力分配,实现了1-2%的性能提升。基于这些发现,我们进一步提出注意力引导的视觉锚定与反思(AVAR)——一个整合视觉锚定数据合成、注意力引导目标和视觉锚定奖励塑形的综合冷启动框架。在Qwen2.5-VL-7B模型上的实验表明,AVAR在7个多模态推理基准测试中平均提升7.0%。消融研究进一步证实AVAR各组件对性能提升均具有阶梯式贡献。相关代码、数据及模型已开源:https://github.com/lrlbbzl/Qwen-AVAR。
现有概念定制方法在高保真度和多概念定制方面已取得显著成果,但往往忽略了学习新个性化概念时对原始模型行为与能力的影响。为解决此问题,我们提出PureCC方法。该方法创新性地引入解耦学习目标,将目标概念的隐式引导与原始条件预测相结合。这种分离形式使PureCC在训练过程中能充分聚焦于原始模型特性。基于此目标,PureCC设计了双分支训练流程:包含提供纯净目标概念表征的冻结提取器作为隐式引导,以及生成原始条件预测的可训练流模型,二者协同实现个性化概念的纯净学习。此外,PureCC引入新型自适应引导系数λ*,动态调整目标概念的引导强度,平衡定制保真度与模型保护。大量实验表明,PureCC在实现高保真概念定制的同时,能保持原始模型行为与能力,达到业界领先水平。代码已开源:https://github.com/lzc-sg/PureCC。
人工智能编程辅助的格局正经历根本性转变:从复杂的IDE插件转向多功能、终端原生的智能体。基于命令行的智能体直接运行于开发者管理源代码控制、执行构建和部署环境的核心场景,为长周期开发任务提供了前所未有的自主性。本文提出OPENDEV——一个专为此新范式设计的开源命令行编程智能体。有效的自主辅助需要严格的安全控制和高效率的上下文管理,以防止上下文膨胀和推理能力衰减。OPENDEV通过复合式AI系统架构攻克了这些挑战:采用工作负载专用模型路由策略,将规划与执行分离的双智能体架构,惰性工具发现机制,以及逐步压缩历史观察的自适应上下文精简技术。此外,该系统通过自动化记忆机制积累跨会话的项目专属知识,并利用事件驱动的系统提醒机制抵消指令衰减效应。通过强制显式推理阶段和优先保障上下文效率,OPENDEV为终端优先的AI辅助提供了安全可扩展的基础框架,为健壮的自主软件工程实践提供了蓝图。
自回归语言模型依赖因果标记化,但将该范式扩展至视觉领域仍具挑战。现有视觉标记器或将二维图像块展平为非因果序列,或采用与"下一标记预测"模式不匹配的启发式排序。近期扩散自编码器同样存在局限:解码器基于全部标记的条件输入缺乏因果性,而嵌套丢弃机制则会引入不平衡。为解决这些问题,我们提出CaTok——搭载MeanFlow解码器的一维因果图像标记器。如图1所示,通过选择时间间隔内的标记并将其绑定至MeanFlow目标函数,CaTok可学习支持快速单步生成与高保真多步采样的因果一维表征,同时自然捕获跨标记间隔的多样化视觉概念。为进一步稳定并加速训练,我们提出简易正则化方法REPA-A,使编码器特征与视觉基础模型对齐。实验表明,CaTok在ImageNet重建任务上达到当前最优效果:仅用较少训练周期即实现0.75 FID、22.53 PSNR和0.674 SSIM,其自回归模型性能与主流方法相当。
训练下一代代码生成模型需要高质量数据集,但现有数据集面临难度失衡、格式不一致和数据质量问题。我们通过系统性数据处理与难度分级应对这些挑战,提出包含收集、处理、过滤和验证的四阶段数据处理框架,并引入基于大语言模型的自动难度过滤机制——该预测-校准-选择框架利用五维加权难度指标,在剔除简单问题的同时保留具有挑战性的题目。最终构建的MicroCoder数据集包含数万个来自多元平台的精选实时编程竞赛题目,突出时效性与高难度特性。在严格未见过的LiveCodeBench上的评估表明,相较于同等规模的常用基线数据集,MicroCoder在300个训练步数内实现3倍性能提升,且在GRPO及其变体训练算法下均保持稳定优势。该数据集在不同模型规模下对中高难度问题均带来显著改进,在模型能力极限处实现最高17.2%的相对性能增益。这些结果验证了难度感知的数据筛选能提升模型应对挑战性任务的能力,为代码生成领域的数据集构建提供了多重启示。
半结构化N:M稀疏性与低位量化(如1.58位BitNet)是提升大语言模型效率的两大前沿技术,但现有研究多孤立探讨二者。本文首次系统研究其交互作用,发现1.58位BitNet相比全精度模型天然具备更优的N:M稀疏兼容性。为此我们提出Sparse-BitNet——首个融合1.58位量化与动态N:M稀疏化的统一框架,并确保训练稳定性。在多种模型规模与训练机制(稀疏预训练、稠密到稀疏调度)下,1.58位BitNet在相同稀疏度下始终表现出更小的性能损失,且能承受更高结构化稀疏度而不发生精度崩溃。通过定制稀疏张量核心,Sparse-BitNet在训练与推理阶段均实现显著加速,最高达1.30倍。这些结果表明,极低位量化与半结构化N:M稀疏的结合是构建高效大语言模型的重要方向。代码已开源:https://github.com/AAzdi/Sparse-BitNet
视觉语言模型(VLMs)通过联合建模视觉观测、驾驶上下文和基于语言的推理,已成为实现端到端自动驾驶(AD)的重要方向。然而,现有基于VLM的系统面临高级推理与运动规划之间的权衡:大模型具备强语义理解能力但难以低成本适配精确控制,而小VLM模型虽可高效微调却常表现出较弱的推理能力。我们提出NaviDriveVLM——一种解耦框架,通过大规模导航器和轻量级可训练驱动器实现推理与动作生成的分离。该设计在保留推理能力的同时降低训练成本,并为下游规划提供可解释的中间表征。在nuScenes基准测试中,NaviDriveVLM在端到端运动规划任务上超越了大型VLM基线模型。
随着视频内容创作日益趋向长叙事形态,将短片片段组合成连贯故事线的重要性愈发凸显。然而当前主流检索方法在推理时仍缺乏上下文感知,过度关注局部语义对齐而忽视状态与身份一致性。针对这一结构性局限,我们正式提出连贯视频检索任务,并构建涵盖YouCook2、COIN和CrossTask的诊断基准。本文推出CAST——一种轻量级即插即用适配器,可兼容多种冻结视觉语言嵌入空间。通过从视觉历史预测状态条件残差更新(Δ),CAST为潜在状态演化引入显式归纳偏置。大量实验表明:CAST在YouCook2和CrossTask上实现性能提升,在COIN保持竞争力,且在不同基础骨干网络中均稳定优于零样本基线。此外,CAST能为黑箱视频生成候选序列提供有效的重排序信号,促进更具时序连贯性的内容延续。
基于CLIP的提示调优技术能够使预训练视觉语言模型高效适配下游任务。尽管现有研究已取得显著进展,但较少关注调优过程中模型内部注意力表征的变化。本文发现提示调优预测的失效模式可归因于视觉编码器前景注意力的偏移,据此提出前景视图引导的提示调优框架(FVG-PT),通过自适应即插即用的前景注意力引导模块来缓解该问题。具体而言,FVG-PT引入可学习的前景可靠性门控以自动提升前景视图质量,应用前景蒸馏补偿模块引导视觉注意力聚焦于前景区域,并进一步通过先验校准模块缓解因过度关注前景导致的泛化性能下降。在多个骨干模型和数据集上的实验验证了FVG-PT的有效性与兼容性。代码已开源于:https://github.com/JREion/FVG-PT
现代代码生成模型呈现出输出更长、能力增长加速及训练动态变化等特征,使得传统训练方法、算法与数据集难以有效提升其性能。为突破这些训练瓶颈,我们提出MicroCoder-GRPO——一种改进的群体相对策略优化方法,其包含三项创新:通过条件截断掩码在保持训练稳定性的同时提升长输出潜力,采用多样性驱动的温度选择机制维持并促进输出多样性,以及通过高剪裁比移除KL损失以增强解空间多样性。在LiveCodeBench v6基准测试中,MicroCoder-GRPO相较于强基线实现最高17.6%的相对提升,且在长上下文评估中增益更为显著。同时我们开源了MicroCoder-Dataset,该更具挑战性的训练语料在300步训练内于LiveCodeBench v6上实现主流数据集3倍的性能增益;并发布MicroCoder-Evaluator评估框架,其评估准确率提升约25%,执行速度加快约40%。通过对三十余组对照实验的系统分析,我们提炼出涵盖七大维度的34项训练洞见,证明经过恰当训练的模型可实现与更大规模模型相媲美的性能。
自回归语言模型通过从左到右的预测逐步构建表征,而扩散语言模型则通过全序列去噪进行训练。尽管当前扩散模型已能匹配自回归模型的性能,但其训练目标是否从根本上重塑了不同深度的内部表征仍不明确。我们首次对原生扩散模型(LLaDA)、原生自回归模型(Qwen2.5)以及自回归初始化的扩散模型(Dream-7B)进行了分层分词的表征对比分析。研究发现:扩散目标会形成更具层次性的抽象表征,其底层存在大量冗余且近因偏差减弱;而自回归目标则产生高度耦合的深度依赖表征。关键发现是,尽管经过扩散训练,自回归初始化的扩散模型仍保持类自回归的表征动态,揭示了初始化偏差的持续性。基于观察到的表征冗余现象,我们提出了一种无需改动架构或共享KV缓存的任务无关静态跳层推理方法。原生扩散模型在保持推理和代码生成基准性能90%以上的同时,最高可实现18.75%的浮点运算量削减,而自回归模型在同等跳层条件下性能急剧下降。这些发现建立了训练目标与表征结构的关联,并为实现与缓存正交的实用化效率提升提供了路径。
基础模型正从离线预测器转变为需长期运行的部署系统。在实际部署中,目标并非固定不变:数据分布会漂移、用户偏好会演变、新任务会在模型发布后不断涌现。这使得持续学习与即时个性化从可选特性升级为核心架构需求。然而当前大多数适配流程仍遵循静态权重范式:在训练(或任何适配步骤)完成后,无论用户意图、领域或实例特定约束如何,推理过程都执行单一参数向量。这种范式将训练或适配后的模型视为参数空间中的单个点。在异构且持续演化的场景中,不同目标会在参数空间形成相互分离的可行域,迫使任何共享更新陷入折衷、干扰或过度专业化。因此,持续学习与个性化常通过重复覆写共享权重来实现,这可能导致已习得能力的退化。我们提出HY-WU(权重释放)这一内存优先的适配框架,将适配压力从覆写单一共享参数点转移至功能化内存系统。HY-WU通过神经模块实现算子级功能内存:该生成器能根据实例条件动态合成权重更新,无需测试时优化即可生成实例特定算子。
我们推出OfficeQA Pro基准测试,用于评估AI代理在大型异构文档库上进行具身多文档推理的能力。该文档库包含横跨近100年的美国财政部公报,共计8.9万页、超过2600万个数值。OfficeQA Pro包含133个问题,要求对非结构化文本和表格数据进行精确的文档解析、检索和分析推理。前沿大语言模型(包括Claude Opus 4.6、GPT-5.4和Gemini 3.1 Pro Preview)在仅依赖参数化知识时,于OfficeQA Pro上的准确率不足5%,即使增加网络检索权限后准确率仍低于12%。当直接提供完整文档库时,前沿AI代理仍有过半问题无法解决,平均得分仅为34.1%。研究发现,通过Databricks的ai_parse_document生成结构化文档表示,可使各类代理平均相对性能提升16.1%。我们还进行了消融实验以研究模型选择、表格表示、检索策略和测试时扩展对性能的影响。尽管存在这些改进,但要使AI代理在企业级具身推理任务中达到可靠水平,仍存在显著的提升空间。
当前生成式视频世界模型致力于模拟视觉环境的动态演化,使观察者能通过相机控制交互式探索场景。然而这类模型隐含着一个假设:世界演化仅发生在观察者视野范围内。一旦物体离开视野,其状态便在记忆中被"冻结",后续重访相同区域时往往无法呈现本应发生的中间事件。本文首次将这一被忽视的局限形式化为"视野外动态"问题,指出其阻碍视频世界模型实现持续演化世界的核心症结。 为解决该问题,我们提出LiveWorld创新框架,通过扩展视频世界模型支持持久性世界演化。该框架摒弃将世界视为静态观察记忆的传统思路,转而构建由静态3D背景与动态实体构成的持久全局状态——这些实体即使未被观察仍持续演化。为维持不可见区域的动态,LiveWorld引入基于监控器的机制:自主模拟活跃实体的时间演进,并在重访时同步其演化后的状态,确保空间一致性渲染。 针对评估需求,我们进一步推出专用基准测试集LiveBench,专门用于衡量视野外动态的维持能力。大量实验表明,LiveWorld能实现持续性事件演进与长期场景一致性,弥合了现有基于二维观察的记忆模型与真实四维动态世界模拟之间的鸿沟。基线模型与基准测试集已公开于https://zichengduan.github.io/LiveWorld/index.html。
本文针对接触密集型任务中的触觉仿真到现实策略迁移问题展开研究。现有方法主要基于视觉传感器,强调图像渲染质量,却对力和剪切力建模过于简化,导致诸多精细操作任务存在显著的仿真与现实差异。我们提出HydroShear——一种非完整流体弹性触觉模拟器,通过建立以下模型推动技术发展:a)粘滑转换效应,b)路径依赖的力与剪切力累积机制,c)完整SE(3)空间下的物体-传感器交互。该模型基于符号距离函数扩展流体弹性接触模型,实时追踪压头与传感器膜物理交互过程中表面点的位移。我们的方法能从任意水密几何体生成基于物理原理且计算高效的力量场,同时保持与底层物理引擎的无关联性。在GelSight Mini传感器实验中,相比现有方法,HydroShear能更精确地复现实物触觉剪切力。这种高保真特性实现了强化学习策略在四个任务中的零样本仿真到现实迁移:轴孔装配、物料装箱、书架插书以及基于滑移检测的精细夹爪抽屉拉动控制。本方法平均成功率高达93%,显著优于基于触觉图像训练的策略(34%)及其他剪切模拟方法(58%-61%)。
基于直接提示的编辑方法在处理复杂变换时常常失效,因为模糊且主观的提示往往需要对图像修改需求具有细腻的理解。我们的核心思路是:利用组合式图像编辑工具而非直接提示,通过具有显式推理能力的结构化智能体规划来获得更好效果。该结构化规划框架支持对质量评分轨迹进行高效的离线强化学习后训练,从而提升性能。我们提出了一种基于工具的智能体强化学习后训练框架,通过具有思维链推理的结构化规划来解决这一问题。我们的主要贡献包括:(1)基于工具的智能体规划方法,结合正交基元变换的组合库、结构化上下文表征及分步显式推理,将复杂风格化任务分解为可解释的工具序列;(2)合成数据生成流程构建了三个大规模数据集(各包含1万条模拟轨迹),提供推理链、规划方案和质量评分,填补了该领域监督数据的空白;我们的数据集和代码已公开于HuggingFace仓库;(3)作为核心算法贡献的离线强化学习训练方法,可培养具备推理能力的规划器,在视觉质量和指令遵循度上持续超越仅编辑基线;(4)基于40亿和80亿参数Qwen3-VL模型的全面评估表明,在多数组合任务中我们的方法优于其他基线,这一结论已通过人工评估验证。
幻灯片在学术、教育及商业等演示场景中作为信息传递的关键载体,其重要性不言而喻。尽管幻灯片制作至关重要,但创作高质量的幻灯片集仍是一项耗时且耗费认知资源的任务。近年来,随着Nano Banana Pro等生成模型的进步,自动化幻灯片生成已日趋可行。然而,现有的幻灯片生成评估方法往往较为粗粒度,且依赖整体性判断,难以精准衡量模型能力或追踪该领域的实质性进展。实践中,缺乏细粒度、可验证的评估标准已成为制约研究进展与实际应用部署的关键瓶颈。本文提出PresentBench——一个基于量规的细粒度基准测试框架,用于评估现实场景中的自动化幻灯片生成。该框架包含238个评估实例,每个实例均附有幻灯片创作所需的背景材料。此外,我们为每个实例人工设计了平均54.1个检查项(以二元问题形式呈现),实现对生成幻灯片集的细粒度、实例化评估。大量实验表明,PresentBench相比现有方法能提供更可靠的评估结果,且与人类偏好呈现显著更强的对齐性。进一步地,我们的基准测试揭示NotebookLM在幻灯片生成方法中表现尤为突出,彰显了该领域近期的重大进展。
手动优化GPU内核是一项极具挑战且耗时的工作。随着大语言模型(LLM)的快速发展,自动化GPU内核优化正逐渐成为现实。然而当前基于LLM的自动化优化方法仅聚焦于机器学习应用(如PyTorch算子优化),忽视了科学计算中稀疏矩阵运算等更广泛的领域。向这些应用场景的拓展为基准测试和算法带来了新挑战,因此开发通用型自动化内核优化方法成为我们的研究重点。本文通过推出跨场景基准测试集MSKernelBench,填补了多场景系统化评估的空白。该基准涵盖基础代数运算、常见LLM内核、稀疏矩阵算子及科学计算例程四大场景,且每个场景均支持FP32与BF16两种精度。基于此基准,我们提出了CUDAMaster——一个具备硬件感知能力的多智能体内核优化系统,该系统能利用性能剖析信息自动构建完整的编译执行工具链。实验结果表明,CUDAMaster在多数算子中实现了显著加速,性能较Astra提升约35%。在多个案例中,其表现可与高度优化的闭源库(如cuBLAS)相媲美甚至更优。各算子的原始代码与优化版本演示可见:https://hanyx2021.github.io/MSKernelBenchDemo/
当代语言模型仍依赖固定的预定义子词分词机制。一旦分词器训练完成,模型只能在此固定粒度层面运行,这常导致即使具备强大推理能力的模型也会出现脆弱且反直觉的行为。我们提出ByteFlow Net——一种新型分层架构,完全摒弃分词器,使模型能够自主将原始字节流分割为语义单元。该架构基于潜在表示编码率进行压缩驱动的分割,通过Top-K选择在保持静态计算图的同时生成自适应边界。与依赖人工设计归纳偏置的脆弱启发式自分词方法不同,ByteFlow Net能根据输入内容动态调整内部表示粒度。实验表明,这种基于压缩的分块策略带来显著性能提升,ByteFlow Net在表现上优于基于BPE的Transformer模型及先前字节级架构。这些结果证明端到端的无分词器建模不仅可行且更高效,为开发更具自适应性和信息基础的语言模型开辟了新路径。
知识蒸馏(KD)在语义分割领域已被广泛用于压缩大模型,但传统方法主要保留域内精度而忽略了分布偏移下至关重要的域外泛化能力。随着视觉基础模型(VFMs)的出现,这一局限更为突出:尽管VFMs在未见数据上展现出强大鲁棒性,但采用传统KD方法进行蒸馏往往会削弱这种能力。我们提出可泛化知识蒸馏(GKD),一种通过多阶段框架显式增强泛化能力的方法。GKD将表征学习与任务学习解耦:第一阶段学生模型通过选择性特征蒸馏获得领域无关的表征,第二阶段冻结这些表征进行任务适配,从而缓解对可见域的过拟合。为进一步支持迁移,我们引入基于查询的软蒸馏机制,使学生模型特征作为查询向量,从VFMs中选择性检索可迁移的空间知识。在五个域泛化基准上的大量实验表明,GKD始终优于现有KD方法,在基础模型到基础模型(F2F)和基础模型到本地模型(F2L)的蒸馏中分别实现平均+1.9%和+10.6%的性能提升。代码已开源于https://github.com/Younger-hua/GKD。
在代码生成与数学解题等复杂推理任务中,文本生成的多样化输出对于有效探索解决方案至关重要。这类Pass@k问题需要覆盖解空间的不同候选方案才能发挥优势。然而,传统采样方法常因重复的失败模式而浪费计算资源。虽然扩散语言模型已成为主流自回归范式的有力替代方案,但它们仍难以避免这种冗余问题——独立样本往往会坍缩至相似模式。为此,我们提出一种无需训练、低成本的干预方法,以增强扩散语言模型的生成多样性。该方法通过顺序修改批次中的中间样本,使每个样本在特征空间中都与前序样本保持排斥,从而主动惩罚冗余。与需要重新训练或束搜索的现有方法不同,我们的策略仅产生可忽略的计算开销,同时确保每个样本都能为批次提供独特视角。基于LLaDA-8B-Instruct模型在HumanEval和GSM8K基准测试上的实验表明,我们的方法在不同温度设置下显著提升了多样性与Pass@k性能。作为对采样过程的简易改进,该方法能为当前及未来的扩散语言模型在需要多样化解搜索的任务中提供即时、低成本的性能提升。代码已开源:https://github.com/sean-lamont/odd。
追踪任意点(TAP)是计算机视觉中基础但具有挑战性的任务,需要高精度和长期运动推理。近期结合RGB帧与事件流的研究虽展现出潜力,但通常依赖同步或非自适应的融合方式,导致模态失效时出现时序错位与性能急剧下降。我们提出TAPFormer——基于Transformer的框架,通过异步时序一致融合帧与事件数据,实现鲁棒的高频任意点追踪。其核心创新是瞬态异步融合(TAF)机制,通过连续事件更新显式建模离散帧间的时序演化,弥合低帧率视频与高频率事件流之间的鸿沟。此外,跨模态局部加权融合(CLWF)模块根据模态可靠性自适应调整空间注意力,即使在模糊或低光照下也能生成稳定且具有判别力的特征。为在真实场景下评估方法,我们构建了包含多种光照与运动条件的新型真实世界帧-事件TAP数据集。本方法显著超越现有点追踪器,在阈值内平均像素误差降低28.2%。在标准点追踪基准测试中,我们的追踪器持续保持最优性能。项目网站:tapformer.github.io
城市交通流受土地利用布局与时空异质性出行需求之间复杂的非线性相互作用支配。传统全局回归与时间序列模型难以同时捕捉多交通方式的多尺度动态特征。本研究提出一种GeoAI混合分析框架,通过顺序集成多尺度地理加权回归(MGWR)、随机森林(RF)和时空图卷积网络(ST-GCN),系统建模三种出行方式(机动车、公共交通、主动交通)的交通流时空异质性及其与土地利用的交互作用。将该框架应用于跨越两种对比性城市形态的六个城市、包含350个交通分析区的实证校准数据集,获得四项核心发现:(i)GeoAI混合模型的均方根误差(RMSE)为0.119、R²达0.891,较基准模型性能提升23-62%;(ii)SHAP分析表明土地利用混合度是机动车流的最强预测因子,而公交站点密度对公共交通最具解释力;(iii)DBSCAN聚类识别出五种功能分异的城市交通类型(轮廓系数0.71),且GeoAI混合模型残差的莫兰指数降至0.218(p<0.001),较OLS基线降低72%;(iv)跨城市迁移实验显示模型在聚类内部具有中等可迁移性(R²≥0.78),但跨聚类泛化能力有限,凸显城市形态背景的首要性。该框架为规划师与交通工程师提供了可解释、可扩展的决策工具,支持基于实证的多模式交通管理与土地利用政策制定。
生成式扩散模型在医学影像数据增强中的应用日益增多,但基于文本提示的方法无法生成具有因果关系的训练数据。重新提示会重置整个生成轨迹,导致解剖结构、纹理和背景同时改变。基于反转的编辑方法存在重建误差,会引发结构漂移问题。我们提出MedSteer——一种用于内窥镜影像合成的免训练激活导向框架。该方法通过对比提示对在扩散变换器的交叉注意力层中识别病理特征向量,在推理时沿着该向量引导图像激活,从而生成仅存在导向概念差异的反事实图像对,其余结构均通过构建过程得以保留。我们在Kvasir v3和HyperKvasir数据集上进行了三项实验验证:在三组临床概念对的反事实生成任务中,MedSteer的概念翻转率分别达到0.800、0.925和0.950,在概念翻转率和结构保持性上均优于最佳反转基线方法;在染料解耦任务中,MedSteer实现75%的染料去除率(PnP为20%,h-Edit为10%);在下游息肉检测任务中,使用MedSteer反事实对进行数据增强可使ViT模型的AUC达到0.9755,显著高于数量匹配重提示方法的0.9083,证实反事实结构是性能提升的关键。代码详见https://github.com/phamtrongthang123/medsteer
流映射模型通过单次前向传播即可实现高质量图像生成。然而与迭代式扩散模型不同,其缺乏显式采样轨迹的特性阻碍了外部约束在条件生成和逆问题求解中的集成。我们提出变分流映射框架,该框架将条件采样的视角从"引导采样路径"转换为"学习合适的初始噪声"。具体而言,给定观测数据时,我们通过训练噪声适配器模型来输出噪声分布,使得经流映射转换至数据空间后,样本能同时满足观测约束与数据先验。为此,我们建立了基于变分原理的优化目标,通过联合训练噪声适配器与流映射模型来提升噪声-数据对齐性能,从而仅需简单适配器即可实现复杂数据后验的采样。在多种逆问题上的实验表明,变分流映射仅需单次(或少量)迭代即可生成校准良好的条件样本。在ImageNet数据集上,相较于迭代式扩散/流模型,变分流映射在保持竞争力的生成质量同时,将采样速度提升了数个数量级。代码已开源于https://github.com/abbasmammadov/VFM
我们研究球形化学活性颗粒在平面不可渗透壁面附近的自身扩散泳行为,重点分析颗粒取向对推进作用的影响。针对具有不对称表面化学活性的Janus颗粒(其催化活性帽内包含小型惰性区域)进行解析。虽然数值模拟已被用于研究此类颗粒,但由于几何约束和陡峭的溶质浓度梯度,在极近壁区域解析流动和输运过程存在困难。我们通过近接触极限下的渐近分析来突破这一局限,该极限下颗粒与壁面间隙极为狭窄。特别地,我们考察了惰性区域尺寸与润滑区域渐近相当的特定极限情况。通过分析惰性表面平行于壁面的轴对称构型,并将研究拓展至轻微倾斜取向。研究发现,翻转现象决定了倾斜颗粒是向轴对称状态回转还是持续重新取向,由此揭示了近接触区域内颗粒的旋转稳定性特征。
预测细胞对基因扰动的响应是理解基因功能、疾病机制及治疗开发的基础。尽管近期深度学习方法在模拟单细胞扰动响应方面展现出潜力,但由于生成过程中上下文信息有限,这些方法难以在不同细胞类型和扰动场景中实现泛化。我们提出PT-RAG(扰动感知双阶段检索增强生成)——一种将检索增强生成技术从传统语言模型应用拓展至细胞生物学的新框架。与基于预训练大语言模型进行文本检索的标准RAG系统不同,扰动检索缺乏成熟的相似性度量标准,且需要学习相关上下文的构成要素,这使得可微分检索变得至关重要。PT-RAG通过双阶段流程解决这一问题:首先利用GenePT嵌入检索候选扰动K,随后基于细胞状态和输入扰动条件,通过Gumbel-Softmax离散采样自适应优化选择。这种细胞类型感知的可微分检索实现了检索目标与生成过程的端到端联合优化。在Replogle-Nadig单基因扰动数据集上的实验表明,在相同实验条件下PT-RAG优于STATE和原始RAG方法,且在分布相似性指标(W_1、W_2)上提升最为显著。值得注意的是,原始RAG的显著失败本身即重要发现:它证明在该领域必须采用可微分的细胞类型感知检索,而简单检索反而会损害性能。我们的研究确立了检索增强生成作为模拟细胞对基因扰动响应的前沿范式。实验复现代码详见https://github.com/difra100/PT-RAG_ICLR。
基于视觉语言模型(VLM)的现代图形用户界面(GUI)智能体不仅需要准确执行操作,还需以低延迟响应用户指令。当前针对GUI智能体安全性的研究主要集中于操控动作准确性,而与响应效率相关的安全风险尚未得到充分探索。本文提出SlowBA——一种针对VLM型GUI智能体响应速度的新型后门攻击。其核心思想是通过特定触发模式诱导模型生成过长的推理链,从而操控响应延迟。为实现这一目标,我们设计了两阶段奖励级后门注入(RBI)策略:首先对齐长响应格式,随后通过强化学习实现触发模式感知激活。此外,我们设计了自然出现在GUI环境中的弹窗触发器,有效提升了攻击的隐蔽性。跨多数据集和基线的实验表明,SlowBA能在基本保持任务准确性的同时,显著增加响应长度与延迟。即使在小规模数据污染比例及多种防御设置下,该攻击仍保持有效性。这些发现揭示了GUI智能体领域先前被忽视的安全漏洞,强调了需同时兼顾动作准确性与响应效率的防御机制必要性。代码详见https://github.com/tu-tuing/SlowBA。
模仿学习(IL)使机器人能够通过专家示范掌握操作技能。扩散策略(DP)可建模多模态专家行为,但随着观测时域的延长会出现性能下降,限制了长时程操作能力。我们提出自演进门控注意力(SEGA)时序模块,该模块通过门控注意力维持随时间演进的潜状态,实现高效的循环更新,将长时程观测压缩为固定尺寸表征的同时过滤无关时序信息。将SEGA整合至DP形成自演进扩散策略(SeedPolicy),该方法解决了时序建模瓶颈,能以适中开销实现可扩展的时域延伸。在包含50项操作任务的RoboTwin 2.0基准测试中,SeedPolicy超越了DP及其他IL基线方法。在CNN与Transformer两种骨干网络下,SeedPolicy在标准场景中相对DP实现36.8%的性能提升,在随机化挑战场景中相对提升达169%。与参数量达12亿的视觉-语言-动作模型(如RDT)相比,SeedPolicy以少一至两个数量级的参数量达到相当性能,展现出卓越的效能与可扩展性。这些结果确立了SeedPolicy作为长时程机器人操作模仿学习的先进地位。代码已开源:https://github.com/Youqiang-Gui/SeedPolicy。
世界模型能够在预测的未来想象空间中进行规划,为具身导航提供了有前景的框架。然而,现有导航世界模型往往缺乏动作条件一致性,导致视觉上合理的预测在多步推演中仍可能产生漂移,进而影响规划性能。此外,高效部署需要少步数扩散推理,但现有蒸馏方法未能显式保持推演一致性,造成训练与推理的不匹配。针对这些挑战,我们提出MWM——一种基于规划的图像目标导航移动世界模型。具体而言,我们设计了结合结构预训练与动作条件一致性后训练的两阶段框架,以提升动作条件推演一致性。进一步提出推理一致性状态蒸馏方法,通过改进的推演一致性实现少步数扩散蒸馏。在基准测试和实际任务上的实验表明,我们的方法在视觉保真度、轨迹精度、规划成功率和推理效率方面均取得持续提升。代码:https://github.com/AIGeeksGroup/MWM。项目网站:https://aigeeksgroup.github.io/MWM。