每日精选AI研究论文及翻译
大型语言模型(LLMs)通过实现自然语言描述到功能代码的直接转换,从根本上变革了自动化软件开发领域,并借助GitHub Copilot(微软)、Cursor(Anysphere)、Trae(字节跳动)和Claude Code(Anthropic)等工具推动商业应用。该领域已从基于规则的系统演进至基于Transformer的架构,在HumanEval等基准测试中的成功率从个位数提升至95%以上。本文通过一系列分析与探测实验,对代码LLMs进行全面梳理并构建实践指南,系统考察从数据构建到后训练的完整模型生命周期,涵盖高级提示范式、代码预训练、监督微调、强化学习及自主编码智能体。我们深入分析通用LLMs(GPT-4、Claude、LLaMA)与代码专用LLMs(StarCoder、Code LLaMA、DeepSeek-Coder、QwenCoder)的代码能力,批判性审视其技术方案、设计决策与权衡取舍。进一步地,我们阐明了学术研究(如基准测试与任务设定)与真实场景部署(如软件相关代码任务)之间的研究实践鸿沟,涉及代码正确性、安全性、大型代码库的上下文感知及开发流程集成等问题,并将前沿研究方向映射至实际需求。最后,我们通过系列实验对代码预训练、监督微调与强化学习进行全景分析,涵盖缩放定律、框架选择、超参数敏感性、模型架构及数据集比较等维度。
大型多模态模型在结合文本思维链进行视频推理方面展现出巨大潜力,但在处理长视频时仍易产生幻觉现象,尤其是当证据稀疏且时间分散的情况下。受人类理解长视频方式的启发——先全局浏览再细查相关片段,我们提出了LongVT端到端智能体框架,通过交错式多模态工具链思维实现"长视频思维"。具体而言,我们利用模型固有的时序定位能力作为原生视频裁剪工具,对特定视频片段进行局部放大并重采样更细粒度的视频帧。这种从全局到局部的推理循环将持续进行,直至答案基于检索到的视觉证据。针对长视频推理任务中细粒度问答数据的稀缺性,我们构建并将发布VideoSIAH数据集套件以支持训练与评估。该训练集包含24.79万条工具集成冷启动监督微调样本、1600条智能体强化学习样本及1.54万条智能体强化微调样本。评估基准包含1280个通过半自动数据流水线结合人工校验精心构建的问答对。通过精心设计的三阶段训练策略和大量实证验证,LongVT在四个具有挑战性的长视频理解与推理基准测试中均持续超越现有强基线。相关代码、数据及模型权重已开源于https://github.com/EvolvingLMMs-Lab/LongVT。
当前多模态模型旨在通过统一理解与生成能力来突破单模态表征的局限,常采用文本到图像(T2I)任务来校准语义一致性。然而,其在训练和评估中对静态单图生成的依赖,导致模型过度拟合静态模式匹配与语义融合,从根本上制约了对时间维度动态过程的建模能力。为突破这些限制,我们提出Envision——一个面向链式文本到多图生成的因果事件演进基准。该基准以世界知识为根基、时空因果关系为框架,重构了现有评估维度,涵盖六大科学与人文领域的1000个四阶段生成提示。为将评估从单图像转向序列帧,并检验模型是否在遵循因果时序约束的同时真正内化了世界知识,我们引入了Envision-Score这一融合多维度一致性、物理合理性与美学品质的综合指标。对15个模型(10个专用T2I模型、5个统一多模态模型)的系统性评估表明:专用T2I模型虽在美学渲染上表现优异,却缺乏内在世界知识;统一多模态模型弥补了这一鸿沟,在因果叙事连贯性上持续优于专用模型。然而,即便这些统一架构仍逊色于闭源模型,且难以克服时空一致性的核心挑战。这表明对因果孤立单图像的侧重会阻碍多帧推理与生成,促使模型偏向静态模式匹配而非动态世界建模,最终限制世界知识的内化与生成能力。
本文提出了一种用于大语言模型强化学习的新颖框架,阐释了在政策梯度方法(如REINFORCE)中,为何及何种条件下可通过代理词级目标优化真实的序列级奖励。具体而言,通过一阶近似分析,我们发现仅当训练-推断差异与策略陈旧性均被最小化时,该代理目标的优化有效性才会持续增强。这一洞见为多项广泛采用的稳定RL训练技术提供了理论依据,包括重要性采样校正、梯度裁剪,以及特别针对专家混合模型的路由重放机制。通过对总计达数十万GPU小时的30B专家混合模型进行大量实验,我们证明:在在线策略训练中,采用重要性采样校正的基础策略梯度算法能实现最高的训练稳定性;当引入离线策略更新以加速收敛时,结合梯度裁剪与路由重放技术对于缓解策略陈旧性引起的不稳定至关重要。值得注意的是,一旦训练趋于稳定,无论冷启动初始化方式如何,延长优化时间均能获得具有可比性的最终性能。我们希望这些关于稳定RL训练的洞见与优化方案能为未来研究提供有益参考。
深度研究智能体(DRA)旨在通过迭代式信息检索与综合自动生成分析师级别的研究报告。然而现有DRA大多在问答基准测试中进行验证,而针对综合性报告生成的研究仍被忽视。更严峻的是,当前报告合成基准存在任务复杂度高和评估指标主观性强的问题——这既无法反映真实用户需求,也限制了生成报告的实际应用价值。为填补这些空白,我们提出细粒度深度研究基准(FINDER),该增强型基准包含100项人工策划的研究任务与419条结构化检查项,可标准化报告结构、分析深度和事实依据。基于主流DRA生成的近千份报告,我们进一步提出深度研究失败分类体系(DEFT),这是首个针对深度研究智能体的故障分类框架。DEFT涵盖推理、检索与生成三大维度的14种细粒度故障模式,其构建基于扎根理论并采用人机协同标注与标注者间一致性验证。实验结果表明,当前DRA的瓶颈并非任务理解能力,而是证据整合、事实核查及抗干扰推理规划方面的不足。
当前视频扩散模型虽能生成视觉上引人入胜的片段,却常违背基本物理定律——物体漂浮、加速度漂移、碰撞行为不一致——揭示了视觉真实感与物理真实感之间的持续差距。我们提出NewtonRewards,首个基于可验证奖励的物理基础后训练视频生成框架。该框架不依赖人类或视觉语言模型的反馈,而是通过冻结的效用模型从生成视频中提取可测量代理指标:光流作为速度的代理,高级外观特征作为质量的代理。这些代理指标通过两种互补的奖励机制实现牛顿力学结构的显式强化:牛顿运动学约束确保恒定加速度动力学,质量守恒奖励防止出现平庸的退化解。我们在新构建的大规模基准数据集NewtonBench-60K上,针对五种牛顿运动基本模式(自由落体、水平/抛物线抛射、斜面下滑/上滑)进行评估。在所有运动模式的视觉与物理指标中,NewtonRewards均能持续提升物理合理性、运动平滑度与时间连贯性,优于现有后训练方法。该框架在高度、速度、摩擦力的分布外偏移下仍保持强劲性能。我们的研究表明,基于物理的可验证奖励为物理感知视频生成提供了可扩展的路径。
先前的研究已探索了基于参考图像的各类定制化生成任务,但在生成具有一致细粒度细节的图像方面仍存在局限。本文旨在通过采用参考引导的后编辑方法解决生成图像的不一致性问题,并提出我们的ImageCritic模型。我们首先通过基于视觉语言模型的选择和显式退化构建了参考-退化-目标三元组数据集,有效模拟了现有生成模型中常见的细节不准确或不一致现象。进一步地,在深入分析模型注意力机制与内在表征的基础上,我们相应设计了注意力对齐损失函数和细节编码器,以精准修正不一致问题。ImageCritic可被集成至智能体框架中,通过多轮局部编辑在复杂场景下自动检测并修正不一致区域。大量实验表明,ImageCritic能在多种定制化生成场景中有效解决细节相关问题,相较现有方法实现了显著提升。
当前自回归视频扩散模型面临三大核心瓶颈:(i)基础模型的三维旋转位置编码(3D-RoPE)所施加的有限时间跨度限制;(ii)生成长序列视频时提示词响应迟缓导致细粒度动作控制能力下降;(iii)无法在单次生成流中实现非连续的电影式场景转换。我们提出infty-RoPE这一统一推理框架,通过三个相互关联的组件——块相对论RoPE、KV刷新和RoPE截断——系统解决上述局限。块相对论RoPE将时间编码重构为移动局部参考系:新生成的潜在块相对于基础模型最大帧范围进行旋转,而早期块则反向旋转以保持相对时间几何关系。这种相对论表述消除了固定时间位置,实现了远超基础位置限制的连续视频生成。为实现无需重新编码的细粒度动作控制,KV刷新机制通过仅保留全局锚点帧与最后生成的潜在帧来更新KV缓存,从而确保即时提示词响应。最后,RoPE截断技术在时间RoPE坐标中引入受控间断,使得单次连续生成过程中可实现多镜头场景转换。这些组件共同构成了infty-RoPE——一个无需训练即可实现无限时长、可控且具电影感的视频扩散基础框架。综合实验表明,infty-RoPE在VBench各项指标上均持续超越现有自回归模型。
统一多模态模型(UMMs)致力于在单一框架内协同实现多模态理解与生成任务。我们提出TUNA——一种原生统一多模态模型,其通过将VAE编码器与表征编码器级联构建出统一的连续视觉表征空间。这种统一表征空间支持对图像和视频进行端到端的理解与生成处理。相较于采用解耦表征的先前模型,TUNA的统一视觉空间避免了分立编码器带来的表征格式失配问题,在理解与生成任务上均优于解耦方案。此外,我们发现更强的预训练表征编码器能持续提升所有多模态任务性能,这凸显了表征编码器的重要性。最终在这种统一架构下,联合训练理解与生成数据可使两项任务相互促进而非相互干扰。我们在多模态理解与生成基准上的大量实验表明,TUNA在图像/视频理解、图像/视频生成以及图像编辑任务中均取得最先进成果,验证了其统一表征设计的有效性与可扩展性。
我们推出LFM2系列液态基础模型,专为高效端侧部署与强大任务能力而设计。通过在边缘延迟和内存限制下进行硬件在环架构搜索,我们获得了结合门控短卷积与少量分组查询注意力模块的紧凑混合主干网络,在CPU上相比同规模模型实现最高2倍的预填充和解码速度。LFM2系列涵盖3.5亿至83亿参数规模,包括稠密模型(3.5亿/7亿/12亿/26亿)和专家混合变体(83亿总参数/15亿激活参数),均支持32K上下文长度。其训练流程包含:避免支持失配的温和解耦Top-K知识蒸馏目标、按难度排序数据的课程学习,以及监督微调-长度归一化偏好优化-模型合并的三阶段后训练方案。基于10-12万亿token预训练的LFM2模型在多项基准测试中表现优异,例如LFM2-26亿在IFEval达到79.56%,在GSM8K获得82.41%。我们还开发了多模态与检索变体:面向视觉语言任务的LFM2-VL、语音处理的LFM2-Audio以及检索专用的LFM2-ColBERT。LFM2-VL通过令牌高效的视觉处理支持可调节的精度-延迟权衡;LFM2-Audio分离音频输入输出路径,实现与三倍规模模型相当的实时语音交互;LFM2-ColBERT提供低延迟查询文档编码器,支持跨语言高性能检索。所有模型均开源权重及ExecuTorch、llama.cpp、vLLM部署套件,使LFM2成为需要快速内存高效推理与强大任务能力的边缘应用的实用基础平台。
知识图谱(KGs)为大型语言模型(LLMs)提供了结构化、可验证的基础支撑,但当前基于LLM的系统通常仅将KGs作为文本检索的辅助结构,未能充分挖掘其内在质量。本文提出Wikontic——一种多阶段处理流程,通过从开放域文本中提取带有限定符的候选三元组、实施基于Wikidata的类型与关系约束、并对实体进行归一化以减少重复,从而构建知识图谱。所得知识图谱具有紧凑性、本体一致性和良好连通性:在MuSiQue数据集上,正确答案实体在96%的生成三元组中出现。在HotpotQA任务中,我们仅使用三元组的设置达到76.0 F1值,在MuSiQue上达到59.8 F1值,匹配或超越了仍需文本语境的多种检索增强生成基线方法。此外,Wikontic在MINE-1基准测试中实现了最先进的信息保留性能(86%),优于现有知识图谱构建方法。该流程在构建时亦具高效性:知识图谱构建消耗少于1,000个输出标记,比AriGraph减少约三分之二,仅为GraphRAG的1/20。所提出的流程提升了生成知识图谱的质量,为LLMs中结构化知识的利用提供了可扩展的解决方案。
近期大语言模型(LLM)的进步主要源于其涌现的推理能力,特别是通过长链思维(CoT)提示技术实现了全面探索与深度思考。然而,长链CoT模型常表现出次优推理行为,如过度思考与推理链条冗长等问题,反而可能损害性能。本文通过优化视角分析推理过程,将CoT构建为梯度下降流程——每个推理步骤都是向问题解决的迭代更新。基于此视角,我们提出RePro(过程级奖励校正)方法,用于在训练后阶段优化LLM推理。RePro通过定义代理目标函数评估CoT背后的优化过程,采用双评分机制量化其推理强度与稳定性。这些分数被聚合为复合型过程级奖励,无缝集成至带可验证奖励的强化学习(RLVR)框架中以优化LLM。在数学、科学和编程等多领域基准测试中,通过多种强化学习算法与不同LLM的大规模实验表明,RePro能持续提升推理性能并有效缓解次优推理行为。
扩散模型已成为生成模型的主流类别,但其迭代采样过程仍存在计算成本高的问题。时间步蒸馏是一种加速生成的有效技术,但通常需要大量训练且会导致图像质量下降。此外,基于强化学习(RL)针对特定目标(如审美偏好或用户喜好)对这些蒸馏模型进行微调时,存在训练不稳定且易陷入奖励破解的问题。本文提出Flash-DMD新型框架,通过蒸馏实现快速收敛,并结合RL进行联合优化。具体而言,我们首先提出高效的时间步感知蒸馏策略,在仅需DMD2训练成本2.1%的情况下显著提升真实感;其次引入联合训练机制,在持续进行时间步蒸馏的同时,通过RL目标对模型进行微调。实验表明,持续蒸馏产生的稳定、明确损失可作为强正则化项,有效稳定RL训练并避免策略崩溃。基于评分模型和流匹配模型的广泛实验证明,Flash-DMD不仅收敛速度显著提升,在少步采样机制下更达到最优生成质量,在视觉质量、人类偏好和图文对齐指标上均超越现有方法。本研究为训练高效、高保真且稳定的生成模型提供了有效范式。代码即将开源。
视觉-语言-动作模型(VLA)在多样化机器人任务中正展现出日益强大的能力。然而,其实际部署仍存在速度慢、效率低的问题:演示视频常需加速5-10倍才能呈现流畅效果,且存在明显动作卡顿及对环境变化的延迟响应。异步推理通过让机器人在执行动作的同时进行推理计算,为实现连续低延迟控制提供了可行方案。但由于推理过程中机器人与环境持续演变,预测区间与执行区间会产生时序错位,导致显著的动作不稳定性。现有方法或降低精度或引入运行时开销以缓解该问题。我们提出VLASH——一种通用VLA异步推理框架,无需额外开销或架构改动即可实现平滑、精准、快速的反应控制。该框架通过将机器人状态与先前生成的动作片段进行前向推演,预估未来执行时刻的状态,从而弥合预测与执行间的鸿沟。实验表明,相较于同步推理,VLASH在完全保持原始精度的同时,最高可实现2.03倍加速,并将反应延迟降低达17.4倍。此外,它使VLA能够胜任乒乓球对打、打地鼠等需要快速反应的高精度任务,而传统同步推理在此类任务中均告失败。代码已开源:https://github.com/mit-han-lab/vlash
我们提出GR-RL机器人学习框架,该框架能将通用视觉-语言-动作(VLA)策略转化为擅长长周期精细操作的专家系统。现有VLA策略的核心假设是人类示范具有最优性,但我们发现对于高精度灵巧操作任务,人类示范存在噪声且并非最优。GR-RL通过多阶段训练流程,采用强化学习对示范数据进行筛选、增强与优化:首先学习视觉语言条件化的任务进度函数,过滤示范轨迹并仅保留对进度有积极贡献的状态转移。具体而言,我们证明直接应用稀疏奖励的离线强化学习时,所得Q值可作为鲁棒的进度评估函数。其次,引入形态对称性增强方法,显著提升GR-RL的泛化能力与性能。最后,为实现高精度控制下VLA策略与部署行为更好对齐,通过训练潜空间噪声预测器进行在线强化学习。该框架使GR-RL成为首个能自主完成穿鞋系带任务的学习型策略——以83.3%的成功率将鞋带依次穿过多个鞋眼,此任务需长周期推理、毫米级精度及柔性体交互能力。我们期待GR-RL为通用机器人基础模型向可靠现实场景专家的转化提供新路径。
大规模视频-文本预训练虽能实现强劲性能,但其依赖的合成标注存在噪声且语义覆盖有限,常常忽略物体运动、三维几何和物理线索等隐含的世界知识。相比之下,掩码视频建模(MVM)能直接利用时空结构,但在通用任务上仍落后于文本监督方法。我们发现这一差距源于被忽视的架构问题:像素级重建存在收敛困难,其低层次要求常与语义特征冲突,而潜在特征预测易引发捷径学习。为此,我们将传统编码器-解码器架构解耦为编码器-预测器-解码器(EPD)框架,其中预测器充当潜在世界模型,并提出InternVideo-Next——一种两阶段预训练方案,为该世界模型构建语义一致且保留细节的潜在空间。首先,像素级MVM中传统的线性解码器强制预测器输出的潜在特征需线性映射至像素空间,导致其与语义抽象产生冲突。我们的第一阶段提出条件扩散解码器,并注入可靠的图像级语义先验以增强语义理解与收敛性,从而弥合像素级保真度与高层语义抽象间的鸿沟。第二阶段通过在此空间内预测已冻结的第一阶段目标,进一步学习世界知识,有效抑制捷径学习。基于公开无标注视频训练的InternVideo-Next在多项基准测试中达到最先进水平,为通用视频表征学习提供了可扩展路径。
基于流的生成模型近期展现出强大性能,但其采样通常依赖昂贵的常微分方程数值积分。整流流方法通过学习近似笔直的概率路径实现一步采样,但达到这种直线性需要多次计算密集的整流迭代。均值流方法通过直接建模时间平均速度实现一步生成,但在高曲率流上训练时存在收敛缓慢和监督信号嘈杂的问题。为解决这些局限,我们提出整流均值流框架,仅需单次整流步骤即可沿整流轨迹建模平均速度场。该方法在无需完全直线化轨迹的前提下实现高效训练。此外,我们引入一种简单有效的截断启发式策略,旨在降低残余曲率并进一步提升性能。在ImageNet数据集64×64、256×256和512×512分辨率上的大量实验表明,整流均值流在样本质量和训练效率上均优于现有的一步流蒸馏及整流流方法。代码已开源:https://github.com/Xinxi-Zhang/Re-MeanFlow。
本文指出,检索算法的目标是与大语言模型对齐,这与大语言模型知识蒸馏的目标具有相似性。我们从信息论角度分析了蒸馏语言模型与原始大语言模型在信息关注层面的相似性,进而提出了一种以蒸馏语言模型作为检索算法的新范式。基于该洞见,我们提出了SpeContext——一种面向长上下文推理的算法与系统协同设计框架。(1)在算法层面,SpeContext基于蒸馏语言模型的头部级注意力权重提出轻量级检索头,通过剪枝冗余参数实现参数量减少超过90%;(2)在系统层面,通过弹性加载策略设计异步预取数据流,有效实现KV缓存检索与LLM计算的并行化;(3)在编译层面,构建理论内存模型并实现自适应内存管理系统,通过最大化GPU内存利用率实现加速。我们在云端和边缘两种资源受限环境中部署评估SpeContext。大量实验表明,相较于Huggingface框架,SpeContext在云端实现最高24.89倍的吞吐量提升,在边缘端实现10.06倍加速,且精度损失可忽略不计,推动了精度与吞吐量的帕累托前沿。
流式视频大语言模型(VideoLLMs)在各类视频理解任务中展现出卓越性能,但由于处理连续视频流中密集视觉令牌的高计算成本,其在实时部署中面临显著挑战。在流式视频场景下,主要瓶颈存在于视觉变换器(ViT)编码阶段——对时间相似帧的冗余处理导致效率低下。此外,大语言模型预填充阶段膨胀的令牌序列会进一步加剧延迟和内存开销。为应对这些挑战,我们提出流式令牌压缩(STC),这是一种可即插即用的分层框架,能无缝集成到现有流式VideoLLMs中,通过协同优化ViT编码和LLM预填充阶段来加速处理。STC引入双级令牌加速器:STC-Cacher通过缓存并复用时间相似帧的特征降低ViT编码开销;STC-Pruner则在视觉令牌序列输入LLM前进行压缩,基于时空相关性仅保留最显著的令牌。在五个基准测试平台上对四种主流流式VideoLLMs的广泛实验表明,STC优于其他压缩方法。值得注意的是,该框架在ReKV基准上保持高达99%的精度,同时将ViT编码延迟和LLM预填充延迟分别降低24.5%和45.3%。
大型语言模型(LLM)是代码生成、数学推理和智能体工作流等应用的技术基石。实际应用中,系统通常通过商业API或开源部署调用LLM,而模型生态(如GPT、Claude、Llama)正经历快速迭代。这种快速演进迫使系统频繁切换模型,其动因包括能力差异、成本考量、部署限制和隐私要求。然而提示词具有显著的模型敏感性:将为某模型优化的提示词直接迁移至其他模型时,其性能往往远低于针对目标模型专门优化的提示词。我们将此现象称为模型漂移。通过对多种LLM配置的广泛实证分析,我们发现模型漂移现象既普遍又严重。为应对这一挑战,我们提出PromptBridge框架——一种无需训练的方法,可在模型切换时保持提示词有效性,实现跨模型提示词迁移而无需针对每个任务或模型进行昂贵的重新优化。该框架仅需少量对齐任务进行校准:首先通过模型自适应反射式提示进化(MAP-RPE)技术,经由迭代式反射优化与量化评估,获取任务与模型特定的最优提示词;利用由此得到的源模型与目标模型校准提示词对,学习跨模型提示词映射关系。在测试阶段(即面对新任务时),给定源模型提示词,该映射可直接生成目标模型的优化提示词。单智能体与多智能体场景的实验表明,PromptBridge能持续提升下游任务准确率,同时显著降低迁移成本。相关代码即将开源。
测试时计算量缩放已成为通过推理阶段分配额外计算资源来增强大语言模型数学推理能力的重要范式。然而现有方法对所有推理子问题采用均匀资源分配,导致关键瓶颈——挑战性子问题得不到足够关注,而常规运算却消耗不成比例的资源。这种均匀分配会造成性能瓶颈,使额外计算资源的回报率递减。受双过程理论启发,我们提出SCALE(选择性资源分配)框架,该框架基于子问题难度选择性分配计算资源。SCALE通过四个阶段运作:(1)将问题分解为序列化推理子问题;(2)评估每个子问题难度以区分常规运算与计算密集型挑战;(3)为简单子问题分配系统1处理模式,复杂子问题分配系统2模式;(4)结合上下文传递的序列化执行。通过将资源集中于挑战性子问题同时高效处理常规运算,SCALE在显著提升资源利用率的同时实现了可观的性能改进。大量实验表明,SCALE显著优于均匀缩放基线,在AIME25数据集上准确率提升高达13.75个百分点(从57.50%至71.25%),同时降低33%-53%的计算成本,这标志着测试时缩放技术取得了突破性进展,从根本上解决了现有方法的局限性。
多语言文本到图像生成模型在视觉真实性与语义对齐方面进展迅速,现已得到广泛应用。然而其输出结果会随文化语境产生差异:由于语言承载着文化内涵,基于多语言提示词生成的图像应当保持跨语言的文化一致性。我们通过系统性分析发现,当前T2I模型在处理多语言提示时往往产生文化中性或英语文化偏向的结果。对两个代表性模型的剖析表明,该问题并非源于文化知识的缺失,而是文化相关表征的激活不足所致。我们提出一种探测方法,可将文化敏感信号定位至少数固定层中的特定神经元集群。基于此发现,我们引入两种互补的对齐策略:(1)无需微调主干网络的推理时文化激活技术,通过放大已识别神经元的响应强度;(2)层定向文化增强方法,仅更新与文化相关的模型层。在自建CultureBench上的实验表明,该方法在保持生成质量与多样性的同时,相较强基线模型实现了文化一致性的持续提升。
多模态大语言模型(MLLMs)中视觉令牌的快速增长导致内存消耗和推理延迟激增,尤其在处理高分辨率图像和视频时更为显著。令牌剪枝技术通过消除冗余来缓解该问题,但现有方法往往忽略与用户查询的相关性,或受限于注意力机制,降低了适应性与有效性。为此,我们提出Script——一种即插即用、无需重新训练且能泛化至多种MLLMs的剪枝方法。该方法包含两个模块:图结构剪枝模块用于消除视觉冗余令牌,查询条件语义剪枝模块则保留与查询相关的视觉信息。二者协同工作可提升多模态任务性能。在图像与视频理解任务的14个基准测试中,Script相比现有剪枝方法持续实现更高的模型效率与预测准确率。在LLaVA-NeXT-7B模型上,该方法实现了最高6.8倍的前向计算加速和10倍浮点运算量减少,同时保持原模型96.88%的性能表现。
从单张图像中恢复像素级几何属性本质上是一个不适定问题,这源于外观歧义性以及二维观测与三维结构之间的非单射映射。虽然判别式回归模型通过大规模监督学习实现了强劲性能,但其成功受限于可用数据的规模、质量与多样性,且缺乏物理推理能力。近期扩散模型展现出强大的世界先验,能够编码从海量图文数据中学到的几何与语义信息,但直接沿用其随机生成范式进行确定性几何推断并非最优:前者以多样化和高保真图像生成为优化目标,而后者需要稳定精确的预测。本文提出Lotus-2这一两阶段确定性框架,旨在实现稳定、准确且细粒度的几何密集预测,通过最优适配方案充分挖掘预训练生成先验。具体而言,第一阶段的核心预测器采用单步确定性公式,结合洁净数据目标与轻量级局部连续性模块(LCM),生成全局一致且无网格伪影的结构;第二阶段通过细节锐化器在核心预测器定义的流形内执行约束式多步修正流优化,借助无噪声确定性流匹配增强细粒度几何细节。仅使用59K训练样本(不足现有大规模数据集的1%),Lotus-2在单目深度估计任务中刷新了最优性能,在表面法线预测领域也展现出高度竞争力。这些结果表明,扩散模型可作为确定性世界先验,实现超越传统判别式与生成范式的高质量几何推理。
流式视频理解不仅要求模型能处理时序输入的帧序列,更需在AR眼镜等现实应用中预判用户意图。尽管现有流式基准测试能评估时序推理能力,但尚未衡量多模态大语言模型在流式场景下解读或利用人类视线信号的能力。为填补这一空白,我们推出首个基准测试StreamGaze,专门评估MLLMs如何有效运用视线信号进行流式视频中的时序与主动推理。StreamGaze通过视线引导的过去、现在及前瞻性任务,全面评估流式视频理解能力。这些任务检验模型是否能利用实时视线追踪注意力转移,并仅基于已观测帧和当前帧推断用户意图。 为构建StreamGaze,我们开发了视线-视频问答生成流程,通过注视点提取、区域特异性视觉提示和扫描路径构建,将第一人称视角视频与原始视线轨迹对齐。该流程生成具有时空锚定性的问答对,精准反映人类感知动态。在所有StreamGaze任务中,我们发现顶尖MLLMs与人类表现存在显著差距,揭示了现有模型在基于视线的时序推理、意图建模和主动预测方面的根本局限。我们进一步深入分析了视线提示策略、推理行为及任务特异性失败模式,为当前MLLMs的不足提供根源性解读,并指明未来模型需发展的关键能力。所有数据与代码将公开释放,以持续支持视线引导的流式视频理解研究。
受DeepSeek-R1启发的多模态推理模型近期显著推进了视觉语言系统发展。然而在遥感(RS)任务中,我们观察到普遍存在的伪推理现象:模型仅机械描述推理流程,而非真正基于视觉证据推导正确答案。我们将此归因于"一瞥效应"——对大尺度遥感影像的粗粒度单次感知导致理解不完整,进而依赖语言自洽性而非视觉证据进行推理。为此,我们提出RS-EoT(遥感思维证据链),一种语言驱动的迭代式视觉证据搜寻范式。为实现该范式,我们设计SocraticAgent:通过推理与视觉检验交替循环的自博弈多智能体系统,合成完整推理轨迹。为强化并泛化该模式,我们提出两阶段渐进式强化学习策略:首先在细粒度定位任务上进行RL以增强RS-EoT能力,继而在RS视觉问答任务上实施RL以泛化至更广泛的理解场景。实验表明,RS-EoT在多个RS视觉问答与定位基准上达到最先进性能。分析显示清晰的推理与证据搜寻迭代循环,证实RS-EoT能有效抑制一瞥效应,实现真正的证据驱动推理。代码、数据及模型已开源:https://geox-lab.github.io/Asking_like_Socrates
图形用户界面智能体在执行序列导航任务时,需有效利用历史上下文信息。虽然引入过往动作与观察记录能提升决策质量,但直接使用完整历史会导致计算开销过大并引入无关信息干扰。为此,我们提出HiconAgent——一种通过历史上下文感知策略优化方法训练的GUI智能体,实现历史信息的高效精准利用。HCPO框架通过两个互补组件优化历史信息的使用:动态上下文采样在训练过程中呈现可变长度历史序列,使智能体能够自适应选择最相关上下文;锚点引导的历史压缩则采用双分支策略优化策略更新阶段,其中压缩分支在保留历史动作作为信息流锚点的同时移除历史观察记录。两个分支通过历史增强对齐损失进行耦合,在保证效率的同时保持历史使用的一致性。主流GUI导航基准测试表明,尽管模型规模更小,HiconAgent-3B在GUI-Odyssey数据集上以 grounding准确率提升8.46%、步骤成功率提升11.32%的表现超越GUI-R1-7B模型,同时在AndroidControl和AITW数据集上达到相当性能,并实现最高2.47倍的计算加速与60%的浮点运算量削减。
大型推理模型在数学、代码生成和任务规划方面表现出色,但其依赖冗长的思维链会导致高延迟、冗余和推理路径不连贯。受"思维语言假说"启发——该假说认为人类推理基于名为"心理语"的符号化、组合性心智语言——我们提出了一种训练模型进行紧凑式推理的框架。心理语将抽象推理编码为超压缩的结构化标记,使模型能以更少步骤解决复杂问题。为提升效率与准确性,我们提出"短长度偏好优化"方法,通过强化学习奖励简洁正确的解法,同时保留必要时展开长推理的能力。应用于心理语对齐模型后,该方法在保持详细推理优势的同时,实现了远高于传统方法的压缩率。在AIME 2024/2025、MinervaMath、OlympiadBench、Math500和AMC等基准测试中,ORION模型的推理标记数减少至1/4-1/16,推理延迟降低达5倍,训练成本较DeepSeek R1蒸馏模型降低7-9倍,同时保持其90-98%的准确率。ORION模型在实现2倍压缩的同时,准确率较Claude和ChatGPT-4o最高提升5%。这些结果表明,心理语式压缩推理向类人认知效率迈进了一步,可在不牺牲准确性的前提下实现实时、高性价比的推理。
基于扩散模型的反演去噪范式在多样化图像编辑与修复任务中表现卓越。我们重新审视其机制,揭示了导致重建质量下降的关键被忽视因素——近似噪声误差。该误差源于用第t-1步的预测结果近似替代第t步噪声,导致反演过程中产生严重的误差累积。我们提出投影正交最小二乘鲁棒自适应反演框架(POLARIS),将反演问题从误差补偿重构为误差溯源问题。与通过优化嵌入向量或潜代码来抵消累积偏差的方法不同,POLARIS将引导尺度ω视为步进变量,并推导出数学严密的公式以逐步最小化反演误差。值得注意的是,POLARIS仅需单行代码即可提升反演潜空间质量。该方法以可忽略的性能开销显著抑制噪声近似误差,持续提升下游任务的准确性。
可验证奖励强化学习(RLVR)显著提升了大型语言模型(LLM)的推理能力,使自主智能体能够执行有效的多轮交互与工具集成推理。尽管指令是定义智能体的主要协议,但RLVR通常依赖静态人工设计的指令。然而,这些指令对基础模型可能并非最优,且最优指令会随着智能体策略的提升及与环境交互的探索而动态变化。为弥补这一差距,我们提出INSPO——一种指令-策略协同演化的新型框架,将指令优化整合为强化学习(RL)循环中的动态组件。INSPO维护动态更新的指令候选池,通过问题采样进行验证:RL循环中的奖励信号自动关联至每条指令,并定期淘汰低效指令。新指令通过基于策略的反思机制生成与验证,由LLM驱动的优化器分析回放缓冲区中的历史经验,并根据当前策略演化出更有效的策略。我们在多轮检索与推理任务上进行了广泛实验,证明INSPO显著优于依赖静态指令的强基线方法。该框架能发掘创新性指令,引导智能体走向更具战略性的推理路径,仅以边际计算开销为代价实现显著性能提升。
专业临床AI助手正快速进入医疗实践领域,其宣传口径常强调比通用大语言模型更安全可靠。然而与前沿模型不同,这些临床工具很少接受独立的定量评估——尽管它们对诊断、分诊和指南解读的影响日益扩大,这种评估缺失造成了关键证据空白。我们通过整合MedQA(医学知识)与HealthBench(临床对齐)任务的千项微型基准测试,对两款广泛部署的临床AI系统(OpenEvidence与UpToDate Expert AI)和三种顶尖通用大语言模型(GPT-5、Gemini 3 Pro及Claude Sonnet 4.5)进行对比评估。结果显示通用模型持续优于临床工具,其中GPT-5得分最高;而OpenEvidence与UpToDate在回答完整性、沟通质量、情境意识和系统化安全推理方面存在明显不足。这些发现表明,标榜为临床决策支持的工具可能普遍落后于前沿大语言模型,这凸显了在面向患者的诊疗流程中部署前进行透明独立评估的紧迫性。
测试时扩展(TTS)——即在推理过程中动态分配计算资源——是提升大语言模型(LLM)推理能力的重要方向。然而,目前尚缺乏在相同条件下对主流TTS策略的系统性比较,且模型类型与问题难度对性能的影响机制仍不明确。为填补这些空白,我们开展了首个大规模TTS研究,涵盖使用八个开源LLM(参数量7B至235B)生成的超三百亿token,并横跨四个推理数据集。我们观察到三个一致趋势:(1)不存在普遍最优的单一TTS策略;(2)推理模型在不同难度和轨迹长度的问题上呈现差异化的轨迹质量模式,可分为短视野与长视野两类;(3)对特定模型类型而言,最优TTS性能随计算预算增加呈单调提升。基于这些发现,我们提出了综合考虑问题难度、模型类型与计算预算的TTS策略选择实践方案,为高效实施推理时扩展提供了实用指南。
当前图像编辑模型展现出新一代智能水平,实现了认知与创意驱动的图像编辑。然而现有评估基准覆盖范围过窄,难以全面衡量这些高级能力。为此,我们推出WiseEdit——一个知识密集型基准测试体系,通过深度任务层级与广博知识维度,对认知与创意驱动的图像编辑能力进行系统性评估。借鉴人类认知创造过程,WiseEdit将图像编辑解构为感知、解析与想象三个级联步骤,每个步骤对应特定任务以检验模型在该环节的完成能力。同时包含复合型任务,要求模型同步完成多个认知环节。该基准还融入陈述性、程序性和元认知三大知识类型,最终构建包含1,220个测试案例的评估体系,客观揭示了当前最先进图像编辑模型在知识化认知推理与创意构图能力方面的局限。评估基准、测试代码及各模型生成图像将公开发布。项目主页:https://qnancy.github.io/wiseedit_project_page/。
尽管当前主流的相机控制视频生成模型能够制作出电影级效果,但将其直接应用于生成具有三维一致性与高保真度的时间同步多视角视频仍面临挑战,而这正是驾驭四维世界的关键能力。现有研究或采用数据增强策略,或依赖测试时优化技术,但这些方法受限于模型泛化能力不足与可扩展性问题。为此,我们提出ChronosObserver——一种免训练方法,其核心包含用于表征四维世界场景时空约束的「世界状态超空间」,以及利用该超空间实现多视角扩散采样轨迹同步的「超空间引导采样」。实验结果表明,本方法无需对扩散模型进行训练或微调,即可生成高保真、三维一致的时间同步多视角视频。
我们提出了一种新颖框架,该框架能够直接从非结构化数据中学习用于形状和流形分析的谱基,无需依赖传统的算子选择、离散化和特征求解器。基于最优逼近理论的数学基础,我们通过最小化选定探测函数分布在所学基上的重构误差,训练神经网络分解隐式逼近算子。对于合适的分布,该方法可视为拉普拉斯算子及其特征分解的近似,这些在几何处理中具有基础性地位。此外,我们的方法以统一方式不仅恢复谱基,还能恢复隐式度量的采样密度和底层算子的特征值。值得注意的是,这种无监督方法不对数据流形做任何假设(如网格化或流形维度),使其能够扩展到任意维度的数据集。在三维曲面点云和高维图像流形上,我们的方法无需显式构建算子即可生成有意义的谱基,这些谱基与拉普拉斯算子的谱基具有相似性。通过用基于学习的方法取代传统的算子选择、构建和特征分解流程,本框架为传统处理管线提供了原则性的数据驱动替代方案。这为处理非结构化数据(尤其是高维空间数据)的几何处理开辟了新途径。
计算机视觉领域长期致力于从视频中建模物体运动,然而运动背后的表征——即导致物体形变与移动的不可见物理相互作用——仍属未充分探索的领域。本文研究如何从视觉观测中复原不可见的作用力,例如通过观察落叶飘向来估算风场。我们的核心创新在于提出端到端可微分的逆向图形学框架,该框架能够直接从视频中联合建模物体几何、物理属性与相互作用。通过反向传播算法,我们的方法实现了从物体运动中复原力场表征。我们在合成场景与真实场景中验证了该方法,结果表明其能从视频中推断出合理的力场分布。此外,我们还展示了该方法在基于物理的视频生成与编辑等领域的应用潜力。我们期望该研究能为理解像素背后的物理过程、弥合视觉与物理之间的鸿沟提供新思路。更多视频结果请访问项目页面:https://chaoren2357.github.io/seeingthewind/
尽管大语言模型在高资源多语言任务中表现出色,但对低资源及极低资源印度语系的评估仍严重不足。我们推出IndicParam——一个包含超过1.3万道多选题的人工标注基准数据集,涵盖11种印度语言(尼泊尔语、古吉拉特语、马拉地语、奥里亚语列为低资源语言;多格拉语、迈蒂利语、拉贾斯坦语、梵语、博多语、桑塔利语、孔卡尼语列为极低资源语言)以及梵英混合语集。我们对19个专有及开源权重的大模型进行评估,结果显示即使表现最佳的GPT-5平均准确率也仅达45.0%,DeepSeek-3.2(43.1%)和Claude-4.5(42.7%)紧随其后。我们还为每道题目标注知识导向型或纯语言型分类,以区分事实记忆与语法能力。此外,我们评估了大模型处理多样化题型的能力——除常规多选题外,还包括列表匹配、论断-原因配对和序列排序等题型。IndicParam揭示了跨语言迁移的局限性,为印度语系建立了具有挑战性的评估基准。数据集详见https://huggingface.co/datasets/bharatgenai/IndicParam,基准测试脚本位于https://github.com/ayushbits/IndicParam。
当前的故事可视化方法通常仅通过文本来定位主体,且在保持艺术一致性方面面临挑战。为解决这些局限,我们提出了DreamingComics——一种具备布局感知能力的故事可视化框架。该框架基于预训练的视频扩散变换器(DiT)模型构建,利用其时空先验特性来增强角色身份与风格的一致性。针对基于布局的位置控制,我们提出了RegionalRoPE区域感知位置编码方案,通过目标布局对嵌入向量进行重新索引。此外,我们引入掩码条件损失函数,进一步将每个主体的视觉特征约束至指定区域。为实现从自然语言脚本推断布局,我们整合了基于大语言模型的布局生成器,该生成器经训练可生成漫画风格布局,从而实现灵活可控的布局条件控制。全面评估表明,相较于现有方法,我们的方案在角色一致性上提升29.2%,风格相似度提高36.2%,同时展现出卓越的空间准确性。项目页面详见:https://yj7082126.github.io/dreamingcomics/
因果思维使人类不仅能理解所见现象,更能洞悉其发生缘由。为在现代人工智能系统中复现这种能力,我们提出了视觉因果发现任务——要求模型在不同场景下推断视觉实体间的因果关系,而非仅感知其存在。为此,我们首先构建了包含3.2万张图像的大规模视觉因果图数据集(VCG-32K),所有图像均标注有实体级因果图;进而开发了新型视觉语言模型CauSight,通过因果感知推理实现视觉因果发现。我们的训练方案整合三大要素:(1)基于VCG-32K的训练数据构建;(2)用于合成推理轨迹的因果思维树(ToCT);(3)结合定制化因果奖励的强化学习以优化推理策略。实验表明,CauSight在视觉因果发现任务上显著超越GPT-4.1,性能提升超三倍(绝对增益达21%)。代码、模型及数据集已在项目页面开源:https://github.com/OpenCausaLab/CauSight。
近期,两阶段微调策略(如通过监督微调获取核心驾驶知识,再经由强化微调提升决策规划能力)在推动知识驱动型自动驾驶范式发展中展现出巨大潜力。然而,监督微调的学习机制仍存在推理泛化能力局限,制约了驾驶性能的全面提升。同时,由于场景理解属于开放性问题且对应奖励难以量化,现有强化微调方法主要应用于下游任务。为突破这些限制,我们提出OpenREAD——一种基于开放域推理增强的视觉语言模型自动驾驶框架,可实现从高层推理到底层轨迹规划的端到端强化微调。具体而言,我们首先在开源驾驶知识数据集上构建大规模思维链标注,并采用强大的Qwen3大语言模型作为强化微调中的评判器,用于开放性问题推理质量的奖励建模量化。大量实验证实,联合端到端强化微调能显著提升上下游任务性能,使OpenREAD在推理与规划基准测试中达到最先进水平。
开源纯文本翻译大语言模型(LLMs)在语言覆盖范围和质量方面已取得显著进展,但这些模型仅能通过级联流水线应用于语音翻译(ST),即先进行自动语音识别再进行翻译。这种方式会引入额外延迟,在同步语音翻译(SimulST)场景中尤为关键,且无法利用多模态上下文(如图像)进行歧义消解。预训练多模态基础模型(MMFMs)虽已具备跨模态的强感知与推理能力,但通常缺乏专用翻译LLMs的多语言覆盖能力和专业翻译性能。为构建高效的多模态翻译系统,我们提出一种端到端方法,将MMFMs与翻译LLMs相融合。通过创新性融合策略,将预训练MMFM多个隐藏层状态连接至翻译LLM,实现联合端到端训练。基于Omni 2.5-7B作为MMFM、SeedX PPO-7B作为翻译LLM构建的OmniFusion模型,可实现语音到文本、语音图像到文本及图文到文本的翻译。实验表明,OmniFusion能有效利用音频与视觉输入,在SimulST中较级联流水线降低1秒延迟,并提升整体翻译质量。代码已发布于https://github.com/saikoneru/OmniFusion。
相机与物体运动是视频叙事的关键要素。然而如何精确编辑这些已捕捉的运动仍是一大挑战,尤其在复杂物体运动场景下更为突出。当前基于运动控制的图像转视频(I2V)方法常因缺乏全场景上下文而难以保持编辑一致性,而视频转视频(V2V)方法虽能实现视角变换或基础物体位移,却对细粒度物体运动的控制力有限。我们提出一种轨迹约束的V2V框架,可实现相机与物体运动的联合编辑。该框架通过将视频生成模型与源视频及表征源/目标运动的三维点云轨迹进行绑定,利用这些三维轨迹建立的稀疏对应关系,将丰富上下文从源视频传递至新运动场景,同时保持时空连贯性。关键突破在于,相较于二维轨迹,三维轨迹提供的显式深度线索使模型能够解析深度层级并处理遮挡问题,从而实现精确运动编辑。通过合成数据与真实数据的双阶段训练,我们的模型支持多种运动编辑任务,包括相机/物体联合操控、运动迁移和非刚性变形,为视频编辑开辟了新的创作空间。
全球甲状腺癌发病率的不断上升推动了各种计算机辅助检测方法的发展。甲状腺结节的精确分割是开发AI辅助临床决策支持系统的关键第一步。本研究基于超声图像采用YOLOv5算法实现甲状腺结节实例分割。我们在包含多普勒图像与不包含多普勒图像的两种数据集版本上,评估了五种YOLOv5变体(Nano/Small/Medium/Large/XLarge)。YOLOv5-Large算法在包含多普勒图像的数据集上表现最佳,其Dice相似系数达91%,平均精度均值为0.87。值得注意的是,通常被医师排除的多普勒图像能显著提升分割性能:排除多普勒图像时YOLOv5-Small模型的Dice系数为79%,而引入多普勒图像后所有模型变体性能均得到提升。这些发现表明,基于YOLOv5的实例分割技术为甲状腺结节检测提供了有效的实时解决方案,在自动化诊断系统中具有临床应用潜力。
我们为2025年LibriBrain PNPL竞赛提出基于Conformer架构的解码器,针对两项基础性MEG任务:语音检测与音素分类。该方法将紧凑型Conformer适配于306通道原始MEG信号,采用轻量级卷积投影层和任务专用头部。在语音检测任务中,面向MEG的SpecAugment技术首次探索了MEG特异性数据增强策略。音素分类任务则采用逆平方根类别加权和动态分组加载器来处理100样本平均化的示例。此外,简单的实例级归一化对缓解留出集上的分布偏移起到关键作用。使用官方标准赛道划分和F1-macro指标进行模型选择后,我们的最佳系统在排行榜上分别达到88.9%(语音检测)和65.8%(音素分类)的准确率,超越竞赛基线并在两项任务中均位列前十。具体实现细节、技术文档、源代码及模型检查点详见https://github.com/neural2speech/libribrain-experiments。
业务流程模型与标注(BPMN)作为表示复杂业务工作流的广泛采用标准,其图示通常以视觉图像形式进行交换,而现有分析方法主要依赖XML表示形式进行计算。本研究提出一种基于视觉语言模型(VLM)的流程,可直接从图像中提取BPMN图的结构化JSON表示,无需源模型文件或文本标注辅助。我们结合光学字符识别(OCR)技术实现文本增强,并通过源自XML文件的基准数据评估生成元素列表的准确性。该方法能够在原始源文件缺失的场景下实现稳健的组件提取。通过对多种VLM模型的基准测试,我们发现采用OCR文本增强后多个模型的性能得到提升。此外,我们针对基于OCR的增强方法开展了系统的统计分析及提示词消融实验,从而更清晰地揭示这些因素对模型性能的影响机制。