每日精选AI研究论文及翻译
记忆已成为并仍将是基于基础模型的智能体核心能力。随着智能体记忆研究迅速扩展并吸引空前关注,该领域也日益呈现碎片化态势。现有归属于智能体记忆范畴的研究工作在动机、实现方式和评估协议上往往存在显著差异,而定义松散的记忆术语激增进一步模糊了概念清晰度。传统分类法(如长/短期记忆)已难以涵盖当代智能体记忆系统的多样性。本文旨在勾勒当前智能体记忆研究的最新图景。我们首先清晰界定智能体记忆的范畴,并将其与大型语言模型记忆、检索增强生成(RAG)及上下文工程等相关概念进行区分。随后通过形式、功能与动态性这三个统一视角审视智能体记忆:从形式维度识别出令牌级记忆、参数化记忆与潜空间记忆三大主流实现方式;从功能维度提出细粒度分类法,区分事实记忆、经验记忆与工作记忆;从动态性维度分析记忆如何随时间形成、演化与检索。为支撑实际开发,我们系统梳理了记忆基准测试与开源框架。在整合现有成果基础上,前瞻性阐述了记忆自动化、强化学习融合、多模态记忆、多智能体记忆及可信性等新兴研究方向。期望本综述不仅能作为现有工作的参考指南,更能为将记忆重新构想为未来智能体设计一等公民的概念基础。
自回归模型(ARM)因顺序推理速度缓慢而受限。虽然掩码扩散模型(MDM)提供了并行化替代方案,但其存在关键缺陷:因无法使用键值(KV)缓存而计算开销高昂,且在学习基于不可行令牌组合空间的依赖关系时会产生不连贯生成。为解决这些局限,我们提出ReFusion——一种新颖的掩码扩散模型,通过将并行解码从令牌级提升至更高级别的槽位级(每个槽位为固定长度的连续子序列),实现了卓越的性能与效率。该模型采用迭代式“规划-填充”解码流程:基于扩散的规划步骤首先识别一组弱依赖槽位,随后自回归填充步骤并行解码这些选定槽位。这种基于槽位的设计既通过统一的因果框架实现了完整的KV缓存复用,又将学习复杂度从令牌组合空间降至可管理的槽位排列空间。在七个多样化基准测试上的大量实验表明,ReFusion不仅以34%的性能提升和超18倍的平均加速比显著超越现有MDM,更在保持2.33倍平均加速的同时弥合了与强ARM模型的性能差距。
我们推出QwenLong-L1.5模型,该模型通过系统化的后训练创新实现了卓越的长上下文推理能力。其关键技术突破包括:(1)长上下文数据合成管道:开发了系统化合成框架,可生成需要基于全局分布证据进行多跳推理的挑战性任务。通过将文档解构为原子事实及其内在关联,再以可编程方式组合成可验证的推理问题,该方法能大规模生成高质量训练数据,显著超越简单检索任务,实现真正的长程推理能力;(2)长上下文训练的稳定强化学习:针对长上下文强化学习的不稳定性,提出任务平衡采样与任务特定优势估计以缓解奖励偏差,并设计自适应熵控策略优化(AEPO)动态调节探索-利用平衡;(3)超长上下文的记忆增强架构:针对扩展上下文窗口仍无法容纳无限长序列的难题,开发了具有多阶段融合强化训练的记忆管理框架,可对超过400万token的任务实现单次推理与基于记忆的迭代处理的无缝集成。基于Qwen3-300亿参数A3B思维架构的QwenLong-L1.5,在长上下文推理基准测试中达到与GPT-5和Gemini-2.5-Pro相当的水准,较基线模型平均提升9.90分。在超长任务(100万至400万token)上,其记忆智能体框架较智能体基线提升9.48分。此外,所获得的长上下文推理能力还显著提升了科学推理、记忆工具使用、长对话等通用领域的性能表现。
视觉分词器(如VAE)的潜在空间质量对现代生成模型至关重要。然而,基于标准重建的训练范式会产生偏向低频信息的潜在空间,这导致一个根本性缺陷:更好的像素级精度并不能带来更高质量的生成结果。这意味着将大量算力投入视觉分词器预训练对生成性能的提升效果有限。我们将此称为"预训练缩放问题",并提出关键转变思路:有效的生成式潜在空间必须能简洁表征高层语义。我们提出VTP这一统一视觉分词器预训练框架,率先实现图像-文本对比、自监督和重建损失的联合优化。大规模实验揭示两个核心发现:(1)理解能力是生成效果的关键驱动力;(2)显著改善的缩放特性——生成性能随预训练分配的算力、参数量和数据规模有效提升。经过大规模预训练,我们的分词器实现竞争优势(ImageNet上78.2%零样本精度和0.36 rFID),生成任务收敛速度比先进蒸馏方法快4.1倍。更重要的是其卓越的缩放性:在保持标准DiT训练配置不变的情况下,仅增加VTP预训练的FLOPS投入即可实现下游生成任务65.8%的FID提升,而传统自编码器在消耗1/10 FLOPS时便过早停滞。预训练模型已发布于https://github.com/MiniMax-AI/VTP。
基于预训练视频生成系统构建视频世界模型,是实现通用时空智能的重要而关键的一步。一个理想的世界模型应具备三大核心特性:可控性、长期视觉质量与时间一致性。为此,我们采用渐进式策略——先提升可控性,再向长期高质量生成拓展。我们提出LongVie 2这一端到端自回归框架,通过三阶段训练实现目标:(1)多模态引导技术融合稠密与稀疏控制信号,提供隐式世界级监督以增强可控性;(2)针对输入帧的退化感知训练,弥合训练与长期推理间的差距以保持高视觉质量;(3)历史上下文引导机制,通过对齐相邻片段间的语境信息确保时间一致性。我们进一步推出LongVGenBench综合评测基准,包含100段涵盖真实与合成场景的高清一分钟视频。大量实验表明,LongVie 2在长程可控性、时序连贯性与视觉保真度方面达到业界最优水平,支持持续生成长达五分钟的视频,为统一视频世界建模迈出重要一步。
我们推出金融与会计基准测试(Finch),用于评估AI智能体在真实企业级专业工作流中的表现——涵盖数据录入、结构化处理、格式调整、网络搜索、跨文件检索、计算分析、建模验证、语言翻译、可视化呈现及报告生成等交织性任务。该基准源自从安然公司(提取150名员工的15,000份电子表格与50万封邮件)及其他金融机构的真实工作环境,完整保留多模态素材(文本、表格、公式、图表、代码及图像)的原始复杂性,覆盖预算编制、交易执行、资产管理等多元业务领域。 我们提出结合大语言模型辅助发现与专家标注的工作流构建流程:(1)通过LLM辅助推导并经专家核实的真实邮件线程与电子表格版本历史还原工作流;(2)投入超700小时专家工时进行精细化工作流标注。最终形成包含384项任务的172个复合工作流,涉及1,710个含2700万单元格的电子表格及PDF等附属文件,精准捕捉了企业工作中固有的混乱性、长期性、知识密集性与协作性特征。 我们对包括GPT 5.1、Claude Sonnet 4.5、Gemini 3 Pro、Grok 4和Qwen 3 Max在内的前沿AI系统开展人工与自动化评估。结果显示,GPT 5.1 Pro耗时48小时仅通过38.4%的工作流,Claude Sonnet 4.5通过率低至25.0%。深度案例研究进一步揭示了真实企业工作流为AI智能体带来的核心挑战。
近期编码智能体的进展表明,我们正快速迈向自主软件开发,但现有基准测试未能严格评估构建完整软件系统所需的长期任务处理能力。此前的评估多聚焦于局部代码生成、框架式补全或短期修复任务,尚未解决智能体能否在真实代码库构建所需的长期跨度中保持连贯推理、规划与执行的核心问题。为填补这一空白,我们提出NL2Repo Bench基准测试,专门用于评估编码智能体的长跨度代码库生成能力。该测试仅提供单一自然语言需求文档和空工作区,要求智能体自主设计架构、管理依赖项、实现多模块逻辑,并最终生成可完整安装的Python库。我们对前沿开源与闭源模型的实验表明,长跨度代码库生成任务仍远未解决:即使最强智能体的平均测试通过率也低于40%,且极少能完整生成正确代码库。深入分析揭示了根本性的长跨度任务失效模式,包括过早终止、全局一致性缺失、脆弱的跨文件依赖关系,以及在数百个交互步骤中规划能力不足等问题。NL2Repo Bench为衡量持续性智能体能力建立了严格可验证的测试平台,并揭示出长跨度推理能力是制约新一代自主编码智能体发展的核心瓶颈。
线性注意力机制与状态空间模型(SSM)有望解决采用softmax注意力的长上下文语言模型中存在的二次计算成本瓶颈。我们提出无损线性注意力(EFLA),这是一种数值稳定、完全可并行化且广义化的增量规则表达。具体而言,我们将在线学习更新构建为连续时间动力系统,并证明其精确解不仅可获取,还能以线性时间复杂度和完全并行化方式计算。通过利用动态矩阵的秩-1结构,我们直接推导出有效对应无限阶龙格-库塔法的精确闭式解。该注意力机制理论上不存在误差累积,能完美捕捉连续动态特性,同时保持线性时间复杂度。通过大量实验验证,EFLA在噪声环境中表现出鲁棒性能,相较于DeltaNet在未引入额外参数的情况下实现了更低的语言建模困惑度和更优的下游基准性能。本研究为构建高保真、可扩展的线性时间注意力模型奠定了新的理论基础。
近年来,虚拟形象视频生成模型取得了显著进展。然而,现有方法在生成长时长高分辨率视频时效率有限,随着视频长度增加会出现时序漂移、质量下降和提示跟随能力弱等问题。为应对这些挑战,我们提出KlingAvatar 2.0——一种在空间分辨率和时间维度上进行双重升级的时空级联框架。该框架首先生成捕捉全局语义与运动的低分辨率蓝图视频关键帧,随后采用首尾帧策略将其细化为高分辨率、时序连贯的子片段,同时保持长视频中流畅的时间过渡。为增强长视频中的跨模态指令融合与对齐,我们引入了由三个模态专用大语言模型专家组成的协同推理导演模块。这些专家通过多轮对话推理模态优先级并推断用户潜在意图,将输入转化为详细剧情线。负向导演模块则进一步优化负向提示以提升指令对齐效果。基于这些组件,我们扩展框架以实现支持特定身份的多角色控制。大量实验表明,该模型能有效解决高效、多模态对齐的长时长高分辨率视频生成难题,在视觉清晰度、具有精准唇部同步的真实唇齿渲染、强身份保持以及连贯的多模态指令跟随方面均有显著提升。
全球有数亿人受心理健康问题困扰,而网络已成为获取支持、信息和评估的主要渠道。大型语言模型(LLMs)虽能提供可扩展的便捷辅助,但其在心理健康场景中的应用仍存在风险——当模型推理存在不完整、不一致或缺乏依据时尤为明显。现有心理类LLMs侧重于情感理解或知识复现,却忽视了评估、诊断、干预规划、抽象归纳及验证所需的阶梯式临床推理逻辑。为此,我们推出MentraSuite这一推进可靠心理健康推理的统一框架。通过构建涵盖五大推理维度、六类任务和13个数据集的综合评测基准MentraBench,我们从简洁性、连贯性、幻觉规避、任务理解及内在一致性五个层面系统评估任务表现与推理质量。进一步,我们提出基于混合SFT-RL框架微调的后训练模型Mindora,其采用不一致性检测奖励机制以确保忠实连贯的推理。为支撑训练,我们创新性地提出推理轨迹生成策略:通过智能筛选困难样本,并实施以一致性为导向的结构化重写流程,构建出简洁可读、均衡优质的高质量推理轨迹。在评估的20个LLMs中,Mindora在MentraBench上取得最高综合表现,并在推理可靠性方面展现卓越能力,证明了其在复杂心理健康场景中的有效性。
2025年BEHAVIOR挑战赛旨在严格追踪物理智能体在模拟环境中完成长周期任务的能力进展。BEHAVIOR-1K聚焦于人们最期待机器人协助的日常家务任务,这些任务在真实场景中引入了长周期移动操作挑战,弥合了当前研究与现实世界人本应用之间的鸿沟。本报告展示了我们获得2025年BEHAVIOR挑战赛亚军(以微小差距屈居第二)的解决方案,其性能显著优于其他参赛方案。基于π_{0.5}框架,我们通过系统研究训练技术与数据的影响来构建解决方案。经过精细的消融实验,我们证明了预训练与后训练阶段的扩展能力对竞技性能的提升作用。我们总结了实践心得与设计建议,希望为更广泛的具身智能社区在将强大基础模型适配复杂具身场景时提供可操作的洞见。
视觉-语言-动作(VLA)模型通过融合视觉感知与语言引导的策略学习,为机器人学习提供了前景广阔的范式。然而,现有方法大多依赖二维视觉输入在三维物理环境中执行动作,导致感知与动作落地之间存在显著鸿沟。为弥合这一差距,我们提出空间感知型VLA预训练范式,在预训练阶段实现视觉空间与物理空间的显式对齐,使模型在机器人策略学习前即可获得三维空间理解能力。基于预训练的视觉语言模型,我们利用大规模人类示范视频提取三维视觉和三维动作标注,构建起将二维视觉观测与三维空间推理对齐的新型监督信号。基于该范式,我们实例化出VIPA-VLA双编码器架构,其通过引入三维视觉编码器,将空间感知特征融入语义视觉表征。在下游机器人任务中,VIPA-VLA显著提升了二维视觉与三维动作的关联精度,最终生成更鲁棒且泛化能力更强的机器人策略。
基于大语言模型的智能体通常以贪心的逐步方式运行,仅根据当前观察选择行动而忽略长期后果或替代路径。这种前瞻性缺失在部分可观测的网页环境中尤为突出——由于仅能获取浏览器可见内容(如DOM和UI元素),单个错误操作往往需要通过复杂且脆弱的导航才能撤销。缺乏显式回溯机制使得智能体难以纠正错误或系统化探索替代路径。树搜索方法为这类结构化探索提供了原则性框架,但现有方法缺乏安全回溯机制,容易引发意外副作用,同时假设所有操作皆可逆,忽视了不可逆操作的存在——这些局限降低了其在真实网页任务中的有效性。针对这些挑战,我们提出WebOperator树搜索框架,实现可靠回溯与战略探索。该方法融合了最佳优先搜索策略,通过奖励估计与安全性考量对行动排序,并配备鲁棒的回溯机制,在重放路径前验证其可行性以预防意外副作用。为进一步引导探索,WebOperator从多元推理上下文生成候选行动以确保探索的多样性与鲁棒性,继而通过预执行过滤无效行动与合并语义等价行动来精选高质量行动集。在WebArena和WebVoyager上的实验结果表明了WebOperator的有效性:在WebArena任务中,WebOperator结合gpt-4o实现了54.6%的最优成功率,彰显了战略前瞻与安全执行相结合的关键优势。
我们提出"交互智能体"这一新型数字人范式,其具备性格对齐表达、自适应交互与自我进化能力。为实现该目标,我们推出Mio(多模态交互全能虚拟人)——由五大专业模块构成的端到端框架:思维中枢、语音引擎、面部动画器、肢体动画器与渲染器。这一统一架构将认知推理与实时多模态具身化相结合,实现流畅一致的交互体验。此外,我们建立了全新基准体系以系统评估交互智能体的综合能力。大量实验表明,本框架在所有评估维度上均超越现有最优方法。这些成果共同推动数字人从表层模仿迈向智能交互的新阶段。
当前多数视觉语言模型(VLM)虽能较好地回答基准测试中目标明确的直接性问题,但在处理需要多轮视觉空间探索与推理的复杂开放任务时往往表现不佳。这类视觉思维路径不仅能够像AI侦探般进行逐步探索与验证,还能为最终答案提供更优的解读。然而,由于中间步骤的探索空间庞大,此类路径的评估一直面临挑战。为弥补这一差距,我们开发了评估套件“多步探索视觉推理(V-REX)”,其包含需要原生多步探索的挑战性视觉推理任务基准及评估协议。V-REX覆盖跨领域的丰富应用场景,将多步探索式推理转化为问题链(CoQ)框架,并解构VLM的两大核心能力:(1)规划能力:通过选择探索性问题链来分解开放任务;(2)执行能力:依次回答预设问题链以收集推导最终答案的信息。通过为每个步骤设置有限的问题与答案选项,V-REX实现了对中间步骤的可靠量化与细粒度分析。通过对前沿专有及开源VLM的评估,我们发现了一致的规模扩展趋势、规划与执行能力间的显著差异,以及多步探索推理存在的巨大改进空间。
尽管多模态大语言模型(MLLMs)在多个领域展现出强大能力,但其在自动驾驶中生成细粒度3D感知与预测输出的应用仍待探索。本文提出DrivePI——一种新颖的空间感知4D MLLM,作为统一的视觉-语言-动作(VLA)框架,同时兼容视觉-动作(VA)模型。我们的方法通过端到端优化并行实现空间理解、3D感知(即3D占据)、预测(即占据流)与规划(即动作输出)。为同时获取精确几何信息与丰富视觉外观,本方案将点云、多视角图像和语言指令整合至统一MLLM架构中。我们进一步开发数据引擎生成用于4D空间理解的文本-占据与文本-流问答对。值得注意的是,仅采用0.5B参数的Qwen2.5模型作为MLLM骨干,DrivePI作为单一统一模型即可匹配或超越现有VLA模型与专用VA模型。具体而言:相较于VLA模型,DrivePI在nuScenes-QA上以2.5%平均准确率超越OpenDriveVLA-7B,在nuScenes数据集上比ORION碰撞率降低70%(从0.37%降至0.11%);相比专用VA模型,DrivePI在OpenOcc上以10.3 RayIoU优势超越FB-OCC的3D占据性能,在OpenOcc上将占据流的mAVE从0.591降至0.509,并在nuScenes规划任务中比VAD降低32%的L2误差(从0.72米降至0.49米)。代码将发布于https://github.com/happinesslz/DrivePI。
视觉语言模型(VQA)在视觉问答任务中表现出色,但仍局限于静态视觉感知,仅能基于单张图像进行推理。与之相对,具身智能体需要动态视觉能力——通过主动移动获取信息更丰富的视角。我们提出视觉驱动的主动视角选择任务,该任务仅利用当前图像中的视觉信息选择最具信息量的下一视角,无需依赖场景记忆或外部知识。为支持该研究,我们构建了包含自动生成的查询-目标视角对及问答提示词的合成数据集,并提出通过监督微调与强化学习策略优化相结合的预训练模型微调框架。该方法在基于视角选择的问答任务中表现优异,并能稳健地泛化至未见的合成场景和真实场景。此外,将学习到的VG-AVS框架集成至现有基于场景探索的EQA系统中,可有效提升下游问答任务的准确率。
视觉-语言-动作(VLA)模型在多样化机器人操作任务中展现出卓越的泛化能力。然而,由于在物理交互过程中需同时满足任务执行与安全保证的双重要求(尤其是避免潜在碰撞),在非结构化环境中部署这类模型仍存在挑战。本研究提出名为AEGIS的视觉-语言-安全动作(VLSA)架构,其通过控制屏障函数构建了即插即用的安全约束层。AEGIS可直接与现有VLA模型集成,在保持原有指令跟随性能的同时,通过理论保证提升系统安全性。为评估架构效能,我们构建了涵盖不同空间复杂度与障碍物干预程度的安全关键基准测试SafeLIBERO。大量实验表明,该方法显著优于现有先进基线模型:AEGIS在障碍物规避率上提升59.16%,同时任务执行成功率提高17.25%。为促进可复现性与后续研究,我们已公开代码、模型及基准数据集(https://vlsa-aegis.github.io/)。
对图像生成模型进行过度对齐以迎合广义审美偏好,会与用户意图产生冲突,尤其当用户出于艺术或批判目的需要"反审美"输出时。这种对齐机制将开发者中心的价值观置于首位,损害了用户自主权与审美多元性。我们通过构建广谱美学数据集并评估前沿生成模型与奖励模型,验证了这种偏差。研究发现:审美对齐的生成模型常默认输出符合传统美学的图像,无法响应低画质或负面意象的生成指令;更关键的是,奖励模型会对反审美图像施加惩罚,即便其完全符合用户明确提示。通过图像编辑实验和真实抽象艺术作品评估,我们证实了这种系统性偏差的存在。
图像扩散模型的缓慢推理过程严重影响了交互式用户体验。为解决此问题,我们提出Diffusion Preview新范式,通过快速低步数采样生成预览图供用户评估,待预览满意后再进行全步数精细化处理。现有加速方法(包括免训练求解器和训练后蒸馏技术)难以同时实现高质量预览和预览-最终输出的一致性。我们基于通用线性多步法提出ConsistencySolver——一种通过强化学习优化的轻量级可训练高阶求解器,能显著提升预览质量与一致性。实验结果表明,该求解器在低步数场景下大幅提升生成质量与一致性,特别适用于高效预览-优化工作流。值得注意的是,其仅需比多步DPM-Solver少47%的步数即可达到相当的FID分数,同时性能优于蒸馏基线方法。用户研究显示,本方法在保持生成质量的同时将用户总体交互时间减少近50%。代码已开源:https://github.com/G-U-N/consolver。
表征对齐(REPA)通过将预训练强视觉编码器的表征蒸馏至扩散模型的中间特征来指导生成式训练。我们探究了一个根本性问题:目标表征的哪个维度对生成效果起关键作用——是其全局语义信息(例如通过ImageNet-1K准确率衡量)还是其空间结构(即图像块标记间的成对余弦相似度)?普遍观点认为,作为目标表征时,越强的全局语义性能会带来越好的生成效果。为验证此观点,我们首先对27种不同视觉编码器及不同模型规模进行大规模实证分析。结果出人意料:驱动目标表征生成性能的关键因素是空间结构而非全局性能。为进一步研究,我们引入两种直接改进方案,专门强化空间信息的传递:将REPA中的标准MLP投影层替换为简单卷积层,并为外部表征引入空间归一化层。令人惊讶的是,我们这个被命名为iREPA的简易方法(实现代码不足4行),在多种视觉编码器、模型规模和训练变体(如REPA、REPA-E、Meanflow、JiT等)上均能持续提升REPA的收敛速度。本研究促使我们重新审视表征对齐的基本工作机制,以及如何利用该机制改进生成模型的训练。代码及项目页面详见https://end2end-diffusion.github.io/irepa。
针对完整歌曲的音乐到视频(M2V)生成面临重大挑战。现有方法仅能生成短暂且不连贯的片段,无法实现视觉效果与音乐结构、节拍或歌词的精准对齐,同时缺乏时间连贯性。我们提出AutoMV——一个直接从歌曲生成完整音乐视频(MV)的多智能体系统。该系统首先运用音乐处理工具提取音乐属性(如曲式结构、人声音轨及时间对齐的歌词),并将这些特征构建为后续智能体的上下文输入。随后,编剧智能体与导演智能体基于该信息设计分镜脚本,在共享外部库中定义角色档案,并制定镜头调度方案。这些智能体调用图像生成器制作关键帧,并分别调用"剧情"与"歌手"场景的视频生成器。验证智能体对输出内容进行评估,通过多智能体协作生成连贯的长篇MV。为评估M2V生成效果,我们进一步提出包含四大维度(音乐内容、技术实现、后期制作、艺术表现)和十二项细粒度指标的评测体系。应用该基准对商业产品、AutoMV及人工执导MV进行专家评分显示:AutoMV在四个维度上均显著超越现有基线,缩小了与专业MV的差距。最后,我们探索使用多模态大模型作为自动MV评估工具,虽然前景可观,但其表现仍逊于人类专家,这为未来研究指明了方向。
扩散模型可能无意间复现训练样本,随着这类系统被大规模部署,引发了隐私和版权方面的担忧。现有的推理时缓解方法通常通过操纵无分类器引导机制或扰动提示嵌入来实现,但这些方法往往难以在降低记忆化程度的同时保持与条件提示的良好对齐。我们提出CAPTAIN这一免训练框架,通过在去噪过程中直接修改潜在特征来缓解记忆化问题。该框架首先应用基于频率的噪声初始化,以降低去噪早期阶段复制记忆化模式的倾向;随后识别特征注入的最佳去噪时间步并定位记忆化区域;最后将非记忆化参考图像中语义对齐的特征注入定位的潜在区域,在抑制记忆化的同时保持提示忠实度和视觉质量。实验表明,相较于基于无分类器引导的基线方法,CAPTAIN在保持与目标提示强对齐的同时,实现了记忆化程度的显著降低。
具备物理感知能力的驾驶世界模型对于行驶规划、分布外数据合成和闭环评估至关重要。然而现有方法通常依赖单一扩散模型直接映射驾驶动作到视频,导致学习困难且易产生物理不一致的输出。为克服这些挑战,我们提出创新框架GenieDrive,专为物理感知的驾驶视频生成而设计。该方法首先生成蕴含物理信息的4D占据场作为视频生成基础,该占据场包含高分辨率三维结构与动态特性等丰富物理信息。为有效压缩此类高分辨率占据场,我们提出采用变分自编码器将其编码为潜在三元平面表示,使潜在空间尺寸降至传统方法的58%。我们进一步提出互控注意力机制精准建模控制信号对占据场演化的影响,并以端到端方式联合训练VAE与预测模块以最大化预测精度。这些设计使预测mIoU提升7.2%,推理速度达41 FPS,仅需3.47M参数。此外,视频生成模型引入归一化多视角注意力机制,在4D占据场引导下生成多视角驾驶视频,FVD指标降低20.7%显著提升视频质量。实验表明GenieDrive能够实现高度可控、多视角一致且物理感知的驾驶视频生成。
尽管有效的后训练结合了监督微调(SFT)与强化学习(RL),但如何最优利用专家轨迹仍无定论。我们提出可塑性-上限框架为此领域建立理论基石,将性能分解为基础SFT性能与后续RL可塑性。通过大规模基准测试,我们确立了"先SFT后RL"的串行流程为最优范式,其克服了同步方法的稳定性缺陷。进一步提出三项精准缩放准则:(1)在SFT稳定期或轻度过拟合子阶段启动RL过渡,可通过夯实SFT基础性能且不损害RL可塑性来最大化最终上限;(2)驳斥"少即是多"的SFT-RL缩放观点,证明数据规模决定后训练潜力主基调,而轨迹难度充当性能倍增器;(3)发现SFT最小验证损失可作为筛选专家轨迹的关键指标,从而最大化最终性能上限。本研究为释放专家轨迹价值提供了可落地的实践指南。
扩散蒸馏技术已显著加速了类别条件图像生成,但其在开放式文本到图像生成中的适用性仍不明确。我们首次系统性地研究并比较了前沿蒸馏技术在强效T2I教师模型FLUX.1-lite上的适配效果。通过将现有方法纳入统一框架,我们揭示了从离散类别标签转向自由文本提示时出现的关键障碍。除深入的方法论分析外,我们还提供了关于输入缩放、网络架构和超参数的实用指南,并同步开源实现代码与预训练学生模型。本研究为在实际T2I应用中部署快速、高保真且资源高效的扩散生成器奠定了坚实基础。代码详见github.com/alibaba-damo-academy/T2I-Distill。
大型语言模型(LLMs)在生成最终答案前会产出推理标记以提升复杂任务的表现。虽然这些标记序列看似人类思维过程,但实证研究表明它们并不能真实反映模型的实际推理机制。为弥合这种表象与功能之间的鸿沟,我们提出"标记状态"(SoT)概念框架。该框架将推理标记重新定义为外部化的计算状态——而非语言叙述,它是模型无状态生成周期中唯一持续存在的信息载体。这解释了为何这些标记在推动正确推理的同时,却无法作为可信的文本解释被阅读,并揭示了此前被忽视的关于推理标记的研究课题。我们认为,要真正理解LLMs的运作机制,研究必须超越将推理标记作为文本来解读的层面,转而聚焦于将其作为状态信息进行解码。
现代三维点云处理神经网络架构同时包含卷积层与注意力模块,但如何最优组合仍不明确。我们通过分析不同计算模块在点云网络中的作用,发现一种直观规律:卷积适用于高分辨率浅层中的低阶几何特征提取,此时注意力机制代价高昂却无增益;而注意力能更高效地在低分辨率深层捕获高阶语义与上下文信息。基于此设计原则,我们提出新型改进版三维点云主干网络LitePT,在浅层采用卷积运算,深层切换至注意力机制。为规避丢弃冗余卷积层导致的空间布局信息损失,我们引入无需训练的新型三维位置编码PointROPE。最终模型参数量比顶尖技术Point Transformer V3减少3.6倍,运行速度提升2倍,内存占用降低2倍,但在多项任务与数据集上达到相当甚至更优性能。代码与模型已开源:https://github.com/prs-eth/LitePT。
视觉分词器在扩散模型中起着关键作用。潜在空间的维度既控制着重建保真度,也决定了潜在特征的语义表达能力。然而维度与生成质量之间存在固有权衡,这限制了现有方法只能采用低维潜在空间。尽管近期研究利用视觉基础模型来增强视觉分词器的语义表达能力并加速收敛,但高维分词器的性能仍逊于低维版本。本研究提出RecTok方案,通过流语义蒸馏和重建对齐蒸馏两项关键创新,突破了高维视觉分词器的局限性。我们的核心洞见在于:将流匹配中的前向流构建为语义丰富的训练空间(作为扩散变换器的训练场),而非如既往研究那样聚焦于潜在空间本身。具体而言,我们的方法将视觉基础模型中的语义信息蒸馏至流匹配的前向轨迹中,并通过引入掩码特征重建损失进一步强化语义表达。RecTok在图像重建、生成质量和判别性能方面均实现卓越表现,在有无分类器引导的两种设置下均于gFID-50K指标上取得最先进成果,同时保持语义丰富的潜在空间结构。值得注意的是,随着潜在维度增加,我们观察到性能的持续提升。代码与模型已发布于https://shi-qingyu.github.io/rectok.github.io。
我们提出Flowception——一种新型非自回归可变长度视频生成框架。该框架通过学习交织离散帧插入与连续帧去噪的概率路径实现视频生成。相较于自回归方法,Flowception通过采样过程中的帧插入机制有效压缩长期上下文信息,从而缓解误差累积/漂移问题。与全序列流方法相比,我们的训练计算量降低三倍,更适配局部注意力变体,并能同步学习视频时长与内容。定量实验表明,该方法在FVD和VBench指标上优于自回归与全序列基线模型,定性结果进一步验证了其优越性。通过联合学习序列中的帧插入与去噪操作,Flowception可无缝集成图像到视频生成、视频插帧等多元任务。
泛化能力仍是交互式三维场景生成的核心挑战。现有基于学习的方法将空间理解建立在有限场景数据集上,限制了新布局的泛化能力。我们转而重新编程预训练的三维实例生成器,使其成为场景级学习器,用模型中心的空间监督替代数据集受限的监督。这种重新编程释放了生成器的可迁移空间知识,实现了对未见布局和新颖物体组合的泛化。值得注意的是,即使训练场景由随机组合的物体构成,空间推理能力依然能够涌现。这表明生成器的可迁移场景先验为从纯几何线索推断邻近性、支撑关系和对称性提供了丰富的学习信号。我们摒弃广泛使用的规范空间,通过视角中心的场景空间建模来实例化这一洞见,构建出完全前馈、可泛化的场景生成器,直接从实例模型中学习空间关系。定量与定性结果表明,三维实例生成器是隐式的空间学习与推理器,为交互式三维场景理解与生成的基础模型指明了方向。项目页面:https://luling06.github.io/I-Scene-project/
视频扩散模型虽已彻底改变了生成式视频合成技术,但其存在生成结果不精确、速度缓慢且生成过程不透明等问题——导致用户需要长时间处于等待状态。本研究提出DiffusionBrowser,一个与模型无关的轻量级解码器框架,允许用户在去噪过程的任意节点(时间步或Transformer模块)交互式生成预览。该模型能以超实时4倍以上速度(4秒视频仅需不到1秒)生成包含RGB与场景本征的多模态预览表征,这些预览与最终视频保持一致的画面外观与运动轨迹。通过训练后的解码器,我们证明了在中间噪声步骤中通过随机性重注入和模态导向实现交互式引导生成的可能性,从而解锁了全新的控制能力。此外,我们利用习得的解码器系统化探查模型,揭示了在原本黑箱化的去噪过程中场景、物体等细节是如何被组合与构建的。
文本反演(TI)是一种高效的文本到图像个性化方法,但在复杂提示词上常表现不佳。我们发现其失败根源在于嵌入范数膨胀:学习到的词元会偏离正常分布范围,降低预归一化Transformer中的提示词条件控制效果。实验表明CLIP词元空间中的语义信息主要由方向编码,而膨胀的范数会损害上下文关联性;理论上我们分析了大范数如何削弱位置信息并阻碍预归一化模块的残差更新。我们提出方向性文本反演(DTI),将嵌入范数固定于正常分布尺度,并通过黎曼随机梯度下降在单位超球面上仅优化方向。我们将方向学习建模为带有冯·米塞斯-费希尔先验的最大后验估计,产生恒定方向先验梯度,该方法简单高效。在各类个性化任务中,DTI在保持主体相似度的同时,比TI及其变体具有更好的文本保真度。关键的是,DTI的超球面参数化支持学习概念间的平滑语义连贯插值(球面线性插值),这是标准TI所缺失的能力。我们的研究表明,纯方向优化是实现提示词忠实个性化的稳健且可扩展的路径。
运动理解是物理推理的基础,能使模型推断动态特性并预测未来状态。然而,当前最先进的模型在新型运动基准测试中仍表现不佳,主要源于缺乏大规模细粒度运动数据集。现有运动数据集通常依赖昂贵的人工标注,严重限制了可扩展性。为解决这一难题,我们推出FoundationMotion——一个全自动数据构建流程,能够大规模生成运动数据集。该方法首先通过视频中的物体检测与追踪提取运动轨迹,随后结合轨迹数据与视频帧,利用大语言模型生成关于运动和空间推理的细粒度描述及多样化问答对。基于该流程构建的数据集,我们对NVILA-Video-15B和Qwen2.5-7B等开源模型进行微调,在保持其他任务性能的同时显著提升了运动理解能力。值得注意的是,在多种运动理解数据集和基准测试中,我们的模型表现超越了Gemini-2.5 Flash等强闭源基线模型以及Qwen2.5-VL-72B等大型开源模型。FoundationMotion因此为构建细粒度运动数据集提供了可扩展的解决方案,能有效微调多样化模型以增强运动理解与空间推理能力。
图表理解对于在多模态大语言模型中部署实际应用场景(如科学论文与技术报告分析)至关重要。与自然图像不同,图表同时具备结构化视觉布局(空间属性)和底层数据表征(文本属性)——精准掌握这两者对于实现细粒度的图表推理不可或缺。基于这一发现,我们提出START框架:面向图表理解的空间与文本联合学习方法。具体而言,我们引入(1)图表元素定位和(2)图表转代码生成两项技术,以增强MLLM对图表视觉布局与数据细节的双重理解。为促进空间与文本学习,我们通过新型数据生成流程构建START数据集:首先利用MLLM将真实图表图像转换为可执行图表代码,在保持真实图表视觉分布的同时还原底层数据表征;随后通过大语言模型对代码进行演化,精准定位捕捉图表视觉结构的元素空间位置,解决现有方法无法应对的挑战。为评估模型对图表空间结构的理解能力,我们提出图表空间理解基准CS-Bench,填补了图表综合理解评估的关键空白。通过空间与文本联合学习,START在不同模型规模和基准测试中均较基线模型实现稳定提升,并以显著优势超越现有最优方法。代码、数据及模型将公开发布。
现实世界中的场景通常由若干静态与动态物体构成。尽管捕捉这些物体在自然状态下的四维结构、组合关系及时空构型极具研究价值,但其实现难度同样巨大。因此现有研究多聚焦于单物体分析,并依赖特定类别的参数化动态物体形状模型。这种方法不仅受限于已建模的物体类别,还可能导致场景构型不一致。我们提出COM4D(组合式四维重建)方法,仅需静态多物体或动态单物体的监督信号,即可持续联合预测三维/四维物体的结构与时空构型。通过精心设计对二维视频输入实施时空注意力机制训练,我们将学习过程解耦为物体组合关系学习与单物体时序动态学习,从而完全避免对四维组合训练数据的依赖。在推理阶段,我们提出的注意力混合机制能融合这些独立学习的注意力权重,且无需任何四维组合示例。通过交替进行空间推理与时间推理,COM4D可直接从单目视频中重建出完整且具有持续性的多物体交互四维场景。此外,尽管采用纯数据驱动方式,COM4D在现有的四维物体重建与组合式三维重建等独立任务中仍取得了最先进的结果。
精准的渔业数据对实现有效且可持续的海洋资源管理至关重要。随着电子监测系统的近期推广应用,视频数据采集量已远超人工审阅能力。本文通过开发优化的深度学习流水线,利用模拟传送带式电子监测系统的新型AutoFish数据集(包含六种形态相似的鱼类),实现了自动化鱼类重识别技术突破。研究表明,结合困难三元组挖掘与包含数据集特定归一化的定制图像变换流程,可显著提升重识别关键指标(R1与mAP@k)。采用上述策略后,基于视觉Transformer的Swin-T架构持续优于基于卷积神经网络的ResNet-50,最高达到41.65%的mAP@k值与90.43%的Rank-1准确率。深入分析表明,主要挑战在于区分同物种间视觉相似的个体(种内误差),其中视角不一致问题对识别效果的影响远大于局部遮挡。源代码及文档详见:https://github.com/msamdk/Fish_Re_Identification.git
我们推出FIN-bench-v2,这是一个用于评估芬兰语大型语言模型的统一基准测试套件。该版本将广泛使用的基准测试芬兰语版本与原始FIN-bench的升级扩展版整合为格式统一的集合,涵盖阅读理解、常识推理、情感分析、世界知识和对齐任务中的选择题与生成式任务。所有数据集均转换为HuggingFace Datasets格式,包含完形填空和选择题两种提示模板(每任务五种变体),并对机器翻译资源(如GoldenSwag和XED)进行了人工标注或审核。为筛选稳健任务,我们预训练了一组21.5亿参数的仅解码器模型,通过其学习曲线计算单调性、信噪比、非随机性能及模型排序一致性,仅保留满足所有标准的任务。我们还评估了更大规模的指令微调模型,以表征不同任务和提示模板下的性能表现。所有数据集、提示模板和评估配置已通过我们分叉的Language Model Evaluation Harness开源(https://github.com/LumiOpen/lm-evaluation-harness),补充资源发布于独立代码库(https://github.com/TurkuNLP/FIN-bench-v2)。
世界模型在机器人学习任务中已展现出卓越性能。此类任务大多天然需要多模态推理能力:例如,仅凭视觉信息来完成水瓶注水任务会存在模糊性或信息缺失,因此必须结合音频的时序演变进行推理,考量其内在物理属性与音高模式。本文提出一种生成式潜变量流匹配模型,用于预测未来音频观测值,当该模型集成至机器人策略时,可实现对长期影响的推理。通过两项需感知真实环境音频或音乐信号的操作任务实验,我们证明了相较于未采用前瞻预测的方法,本系统具有更优异的性能。我们进一步强调,这些任务中成功的机器人动作学习不仅依赖于多模态输入,更关键在于对蕴含内在节奏模式的未来音频状态进行精准预测。
近期大型多模态模型的研究进展表明,显式推理机制对提升模型可靠性、可解释性及跨模态对齐能力具有关键作用。尽管这类以推理为核心的方法在语言和视觉任务中已被证明有效,但其在三维领域的拓展仍处于初级阶段。CoRe3D提出了一种统一的三维理解与生成推理框架,该框架能同时对语义和空间抽象进行联合运算,使从语言中推断出的高层意图直接指导底层三维内容的生成。该设计的核心在于一种空间锚定的推理表征,它将三维潜在空间分解为局部区域,使模型能够以组合式、流程化的方式对几何结构进行推理。通过将语义链式推理与结构化空间推理紧密耦合,CoRe3D生成的三维输出既保持了强烈的局部一致性,又与语言描述实现了精准对齐。
年龄相关性黄斑变性(AMD)及其引发的脉络膜新生血管(CNV)相关疾病是全球范围内视力丧失的主要原因,而光学相干断层扫描(OCT)是早期发现与管理的核心技术。然而,ConvNeXtV2-Large等前沿深度学习模型因计算需求过高难以在临床部署。为此,亟需开发既能保持高诊断性能又可实现实时部署的高效模型。本研究提出新型知识蒸馏框架KD-OCT,通过先进数据增强、随机权重平均和焦点损失增强的ConvNeXtV2-Large教师模型,压缩为轻量级EfficientNet-B2学生模型,用于正常、玻璃膜疴和CNV病例分类。该框架采用实时蒸馏策略,通过结合软教师知识迁移与硬真值监督的混合损失函数实现平衡优化。在诺尔眼科医院数据集上进行的患者级交叉验证表明,KD-OCT在效率-准确率平衡性上优于同类多尺度或特征融合OCT分类器,以显著缩减的模型体积和推理时间达到接近教师模型的性能。尽管经过压缩,学生模型仍超越多数现有框架,为AMD筛查的边缘部署提供了可行性。代码详见https://github.com/erfan-nourbakhsh/KD-OCT。