每日精选AI研究论文及翻译
视频世界模型在模拟物理世界方面展现出巨大潜力,但现有记忆机制主要将环境视为静态画布。当动态目标暂时离开视野后重新出现时,当前方法往往难以应对,导致目标出现冻结、畸变或消失现象。为此,我们提出混合记忆新范式,要求模型同时具备静态背景的精准归档能力与动态目标的持续追踪能力,确保目标在离场期间的运动连续性。为推进该方向研究,我们构建了首个面向混合记忆的大规模视频数据集HM-World,包含5.9万条高保真片段,其相机与目标运动轨迹完全解耦,涵盖17类多样化场景、49种不同目标,并精心设计了出入场事件以严格评估混合连贯性。此外,我们提出专用记忆架构HyDRA,通过将记忆压缩为表征单元并采用时空相关性驱动的检索机制,选择性关注相关运动线索,有效保持隐藏目标的身份特征与运动轨迹。在HM-World上的大量实验表明,本方法在动态目标一致性与整体生成质量上均显著超越现有先进方法。
多镜头视频生成对于长叙事故事讲述至关重要,然而当前的双向架构存在交互性有限和延迟较高的问题。我们提出ShotStream——一种新颖的因果多镜头架构,能够实现交互式故事讲述和高效的实时帧生成。通过将任务重新定义为基于历史上下文条件的下一镜头生成,ShotStream允许用户通过流式提示动态指导正在进行的叙事。我们首先将文本到视频模型微调为双向下一镜头生成器,然后通过分布匹配蒸馏将其提炼为因果学生模型。为克服自回归生成中固有的镜头间一致性和错误累积挑战,我们引入两项关键创新:首先,采用双缓存记忆机制保持视觉连贯性——全局上下文缓存保留条件帧以确保镜头间一致性,局部上下文缓存存储当前镜头内生成的帧以保证镜头内一致性;同时使用RoPE间断指示器显式区分两个缓存以消除歧义。其次,为缓解错误累积,我们提出两阶段蒸馏策略:从基于真实历史镜头的镜头内自强制开始,逐步扩展到使用自生成历史的镜头间自强制,有效弥合训练与测试的差距。大量实验表明,ShotStream能以亚秒级延迟生成连贯的多镜头视频,在单GPU上达到16 FPS。其质量匹配或超越速度较慢的双向模型,为实时交互式故事讲述开辟了新途径。训练和推理代码以及模型均已开源。
自回归视频扩散模型已取得显著进展,但在生成长视频时仍受限于线性KV缓存增长、时间重复性以及误差累积等问题。为应对这些挑战,我们提出PackForcing——一个通过新颖的三分区KV缓存策略高效管理生成历史的统一框架。具体而言,我们将历史上下文划分为三种类型:(1)锚点令牌,以全分辨率保留初始锚帧以维持全局语义;(2)中间令牌,通过融合渐进式3D卷积与低分辨率VAE重编码的双分支网络实现大规模时空压缩(令牌量减少32倍);(3)近期令牌,保持全分辨率以确保局部时序连贯性。为严格限制内存占用而不牺牲质量,我们针对中间令牌引入动态top-k上下文选择机制,并结合连续时序RoPE调整技术,以可忽略的开销无缝重定位因令牌丢弃产生的位置间隙。基于这种分层次上下文压缩原理,PackForcing可在单张H200 GPU上生成连贯的2分钟16帧/秒832x480视频,实现仅4GB的有界KV缓存,并达成24倍时序外推能力(从5秒至120秒),无需训练或仅需5秒片段训练即可高效运行。VBench上的大量实验结果表明,该方法在时序一致性(26.07)和动态程度(56.25)上达到业界最优水平,证明短视频监督足以实现高质量的长视频合成。项目地址:https://github.com/ShandaAI/PackForcing
为大型语言模型(LLM)智能体配备领域专用技能对处理复杂任务至关重要。然而,手动编写技能存在严重的可扩展性瓶颈。相反,自动化技能生成常因依赖浅层参数化知识或对不可泛化的轨迹局部经验进行序列化过拟合,导致生成脆弱或碎片化的结果。为此,我们提出Trace2Skill框架,其模仿人类专家编写技能的方式:通过整体分析广泛执行经验后,将其提炼为单一综合性指南。该框架不再对单个轨迹进行序列化响应,而是并行调度子智能体群分析多样化执行轨迹,提取轨迹特定经验,并通过归纳推理将其分层整合为统一无冲突的技能目录。Trace2Skill既支持深化现有人工编写技能,也能实现从零创建新技能。在电子表格、视觉问答和数学推理等挑战性领域的实验表明,Trace2Skill显著超越了包括Anthropic官方xlsx技能在内的强基线。关键的是,这种基于轨迹的演化并非简单记忆任务实例或模型特定偏差:演化后的技能可跨LLM规模迁移,并能泛化至分布外场景。例如,由Qwen3.5-35B基于自身轨迹演化的技能,使Qwen3.5-122B智能体在WikiTableQuestions上的性能提升达57.65个绝对百分点。最终结果表明,复杂智能体经验可被封装为高可迁移的声明式技能——无需参数更新、无需外部检索模块,且仅需350亿参数的开源模型即可实现。
当前,针对视觉语言模型(VLMs)在医学影像任务中的评估方式过度简化了临床实际——其依赖人工精心筛选的二维图像,且需耗费大量人力进行整理。这种设置忽略了真实诊断的核心挑战:合格的临床智能体必须能够主动在完整三维影像序列中跨模态导航,以收集证据并最终支撑诊断决策。为此,我们提出MEDOPENCLAW——一个可审计的运行环境,使VLM能在标准医学工具或查看器(如3D Slicer)中动态操作。基于此运行时,我们进一步推出MEDFLOWBENCH,一个涵盖多序列脑部MRI与肺部CT/PET的全流程医学影像基准测试体系,通过仅查看器、工具调用和开放方法三条赛道系统化评估医学智能体能力。初步结果揭示关键发现:虽然前沿大语言模型/VLM(如Gemini 3.1 Pro与GPT-5.4)能成功操作查看器完成基础研究级任务,但当获得专业工具支持时,其性能反而因缺乏精确空间定位能力而下降。通过弥合静态图像感知与交互式临床工作流之间的鸿沟,MEDOPENCLAW与MEDFLOWBENCH为开发可审计的全流程医学影像智能体奠定了可复现的基础。
视觉语言模型(VLMs)在跨领域代码生成任务中已展现出卓越能力,然而其在真实数据场景下复现复杂多面板可视化图表的能力尚未得到系统评估。为填补这一空白,我们推出\texttt{RealChart2Code}——一个基于真实数据集构建的大规模基准测试平台,包含逾2,800个具有明确分析意图的任务实例。该平台首次系统评估了基于大规模原始数据的图表生成能力,并在多轮对话场景下检验代码迭代优化过程。通过对14个主流VLM模型的综合测试,我们发现相较于简单基准测试,模型在RealChart2Code上出现显著性能衰减,暴露出其处理复杂图表结构和真实数据时的局限性。分析表明,专有模型与开源模型之间存在明显性能差距,且即使最先进的VLM也往往难以准确复现精细的多面板图表。这些发现为理解VLM当前局限提供了重要参考,并为未来研究方向指明了路径。基准测试资源与代码已发布于https://github.com/Speakn0w/RealChart2Code。
在自动驾驶等现实领域,对罕见场景的泛化能力仍是根本性挑战。为此,我们推出了专为端到端驾驶设计的新型数据集,重点关注长尾驾驶事件。我们提供多视角视频数据、轨迹信息、高级指令及详细推理轨迹,支持上下文学习与少样本泛化。这一面向多模态模型(如VLM和VLA)的基准测试不仅评估安全性与舒适度指标,更着重考察指令遵循能力及模型输出的语义连贯性。包含英语、西班牙语和中文的多语言推理轨迹来自具有多元文化背景的领域专家,使我们的数据集成为研究不同推理形式如何影响驾驶能力的独特资源。数据集地址:https://hf.co/datasets/kit-mrt/kitscenes-longtail
智能体性能日益依赖于架构工程,然而架构设计通常深嵌于控制器代码与运行时特定规范中,难以作为科学对象进行迁移、比较和研究。我们提出:能否将智能体架构的高层控制逻辑外化为可移植的可执行载体?我们引入自然语言智能体架构(NLAH),通过可编辑的自然语言描述架构行为,并开发智能架构运行时(IHR)——一个通过显式契约、持久化载体和轻量适配器执行这些架构的共享运行时环境。在编程与计算机操作基准测试中,我们通过可控实验评估了操作可行性、模块消融以及代码到文本的架构迁移能力。
近年来,三维生成技术的进步显著提升了合成三维资产的逼真度与几何细节。然而,由于单视角观测固有的模糊性,以及有限三维训练数据导致全局结构先验不足,现有模型对不可见区域的生成往往具有随机性且难以控制,有时可能偏离用户意图或产生不合理的几何结构。本文提出Know3D创新框架,通过潜在隐状态注入将多模态大语言模型的丰富知识融入三维生成过程,实现语言可控的三维资产背视图生成。我们采用基于视觉语言模型的扩散模型架构,其中视觉语言模型负责语义理解与引导,扩散模型则作为桥梁将语义知识从视觉语言模型传递至三维生成模型。该方法成功弥合了抽象文本指令与未观测区域几何重建之间的鸿沟,将传统随机性的背视图幻觉转变为语义可控的生成过程,为未来三维生成模型的发展指明了新方向。
随着人工智能范式从基于文本的大语言模型转向语音语言模型,能够实现实时自然人机交互的全双工系统需求日益增长。然而,此类模型的发展受限于高质量多说话人对话数据的稀缺性,现有大规模资源主要为单说话人或规模有限。针对自然对话中重叠发言、反馈信号等复杂动态的处理仍存在挑战,标准处理流程常面临说话人日志错误和语音识别幻觉问题。为弥补这一空白,我们提出了一种面向全双工模型的鲁棒且可扩展的开源数据处理流程。
Composer 2是专为智能体化软件工程设计的专业模型。该模型展现出强大的长期规划与编码智能,同时保持高效解决交互式使用问题的能力。模型训练分为两个阶段:首先通过持续预训练提升模型知识储备与潜在编码能力,随后进行大规模强化学习,以增强端到端编码性能,实现更强推理能力、精准的多步骤执行以及长周期现实编码问题的一致性。我们开发了与部署模型所用Cursor框架相匹配的基础设施,配备等效工具和结构,并采用高度贴合实际问题的训练环境。为衡量模型在逐级递增难度任务中的能力,我们推出了基于大型代码库(包括自有代码库)真实软件工程问题的基准测试。Composer 2是前沿级编码模型,展示了训练强领域专业化模型的完整流程。在CursorBench评估中,该模型相较前代Composer模型(61.3分)实现准确率重大提升。在公开基准测试中,模型于我们的测试框架下取得Terminal-Bench 61.7分和SWE-bench多语言版73.7分的成绩,达到业界领先系统水平。
近期分割方法普遍采用预训练生成模型作为特征提取器,通过间接特征检索将分割视为下游适配任务。这种隐式运用存在表征层面的根本性错位,且高度依赖复杂的间接特征提取流程,既增加了工作流复杂度又限制了适配能力。本文主张分割任务应以生成式方法进行直接训练,而非间接适配。我们发现实现该统一框架的核心障碍在于:二值掩码的VAE潜在空间具有分布尖锐、抗噪性强且线性可分的特性,与自然图像潜在表征存在显著差异。为弥合这一差距,我们提出针对二值掩码的时间步采样策略——对分割任务侧重极端噪声水平,对图像生成采用适中噪声,从而实现和谐的联合训练。我们提出GenMask模型,该DiT架构在原始生成目标下训练,可同时生成RGB空间的彩色图像与黑白分割掩码。GenMask在保留原始DiT架构的同时,无需针对分割任务定制特征提取流程。实验表明,GenMask在指代分割与推理分割基准测试中达到最先进性能,消融实验则量化了各组件的贡献度。
掩码扩散语言模型(MDLM)作为标准大语言模型的一种引人注目的非自回归替代方案崭露头角,但其在形态丰富语言中的应用仍存在局限。本文提出专为土耳其语设计的掩码扩散语言模型Diffutron。我们采用资源高效的训练流程:首先基于大规模语料库对多语言编码器进行LoRA持续预训练,随后通过渐进式指令微调策略,依次在通用指令集和任务特定指令集上对模型进行适应性训练。综合基准测试表明,尽管模型规模紧凑,但相较于现有的数十亿参数基线模型仍表现出竞争优势。这些发现验证了掩码扩散建模结合多阶段调优策略在土耳其语非自回归文本生成中的有效性。
基于大语言模型的编程代理在受控基准测试中表现优异,但实际提交的拉取请求却常被项目维护者拒绝。其根本原因并非功能错误,而是缺乏有机性:生成代码往往忽略项目特定规范、重复内部API已提供的功能,并违反多年积累的隐式架构约束。仅向代理提供最新仓库快照远远不够——快照仅呈现代码库的最终状态,却无法展现达成该状态所需的仓库特定变更模式。我们提出"学习式提交"框架,通过在线仓库记忆弥合这一鸿沟。该框架对严格按时间划分的代码库进行监督式对比反思:代理首先盲目尝试解决每个历史提交问题,将其预测结果与真实代码差异比对,并将差距提炼为持续增长的技能集——这些可复用的模式涵盖编码风格、内部API使用及架构不变性。当新PR描述出现时,代理会基于这些累积技能进行代码生成,使变更植根于项目自身演进轨迹而非通用预训练先验。评估针对技能构建阶段完全未接触过的已合并真实未来PR,涵盖功能正确性、代码风格一致性、内部API复用率及修改区域合理性等多维度指标。在具有丰富提交历史的专家维护仓库上的实验表明,在线仓库记忆能有效提升未来保留任务的有机性评分。
思维链推理已被提出作为关键安全部署中大语言模型的透明机制,但其有效性取决于忠实度(即模型是否准确表达实际影响其输出的因素)。先前研究仅针对两个专有模型进行评估,发现Claude 3.7 Sonnet的提示确认率低至25%,DeepSeek-R1为39%。为将评估扩展至开源模型生态,本研究测试了涵盖9种架构家族(70亿至6850亿参数)的12个开源推理模型,使用MMLU和GPQA Diamond的498道选择题,注入六类推理提示(迎合倾向、一致性、视觉模式、元数据、评分器破解和非伦理信息),并测量当提示成功改变答案时模型在思维链中承认提示影响的比率。通过41,832次推理测试,各模型家族的总体忠实度介于39.7%(Seed-1.6-Flash)至89.9%(DeepSeek-V3.2-Speciale)之间,其中一致性提示(35.5%)和迎合倾向提示(53.9%)的确认率最低。训练方法和模型家族对忠实度的预测力强于参数规模,基于关键词的分析显示思维标记确认率(约87.5%)与答案文本确认率(约28.6%)存在显著差距,表明模型内部能识别提示影响但系统性地在输出中抑制这种承认。这些发现直接影响思维链监控作为安全机制的可行性,并表明忠实度并非推理模型的固定属性,而是随架构、训练方法及影响线索性质发生系统性变化。