每日精选AI研究论文及翻译
我们提出未来KL散度影响策略优化(FIPO),一种旨在突破大语言模型推理瓶颈的强化学习算法。虽然GRPO式训练具备良好的扩展性,但其通常依赖基于结果的奖励模型(ORM),将全局优势均匀分配给轨迹中的每个标记。我们认为这种粗粒度的信用分配未能区分关键逻辑支点与普通标记,从而形成了性能瓶颈。FIPO通过将折现后的未来KL散度融入策略更新,构建出能根据标记对后续轨迹行为影响力进行重加权的密集优势公式。实证表明,FIPO能使模型突破标准基线中出现的长度停滞现象。在Qwen2.5-32B上的评估显示,FIPO将平均思维链长度从约4000标记延伸至超10000标记,并将AIME 2024 Pass@1准确率从50.0%提升至峰值58.0%(最终收敛于约56.0%)。该结果优于DeepSeek-R1-Zero-Math-32B(约47.0%)和o1-mini(约56.0%)。我们的研究表明,建立密集优势公式是演进基于ORM的算法、释放基础模型完整推理潜力的关键路径。我们基于verl框架构建的训练系统已开源。
低空经济、具身智能与空地协同系统的融合,正催生对能够统一建模空中与地面智能体的仿真基础设施的需求。现有开源平台仍存在领域割裂:驾驶仿真器缺乏空中动力学支持,而多旋翼仿真器则缺少真实地面场景。基于桥接的联合仿真会引入同步开销,且无法保证严格的时空一致性。 本文提出CARLA-Air开源基础设施,在单一Unreal Engine进程中融合了高保真城市驾驶与物理精确的多旋翼飞行仿真。该平台完整保留CARLA与AirSim原生Python API及ROS 2接口,支持零修改代码复用。通过共享物理时钟与渲染管线,CARLA-Air可提供包含规则合规交通、社会意识行人及空气动力学一致无人机动态的逼真环境,并在每个时钟周期同步捕获全平台最多18种传感器模态数据。平台支持具身智能典型任务,包括协同作业、具身导航与视觉语言动作、多模态感知与数据集构建、强化学习策略训练等。可扩展资源管线支持将自定义机器人平台接入共享世界。通过继承AirSim(其上游开发已归档)的空中能力,CARLA-Air确保这一广泛应用的飞行技术栈能在现代基础设施中持续演进。 平台已发布预编译二进制包与完整源代码:https://github.com/louiszengCN/CarlaAir
当前主流的下一词元预测(NTP)范式通过离散自回归建模推动了大型语言模型的成功。然而,现有的多模态系统仍以语言为核心,往往将非语言模态视为外部附属,导致架构碎片化与融合不足。为突破这一局限,我们提出离散原生自回归框架(DiNA),该统一框架将多模态信息表征于共享离散空间,实现跨模态的一致性与原则性自回归建模。其核心创新是离散原生任意分辨率视觉变换器(dNaViT),可在任意分辨率下执行标记化与逆标记化操作,将连续视觉信号转化为层次化离散标记。基于此,我们开发了原生多模态模型LongCat-Next,该模型以单一自回归目标处理文本、视觉和音频信号,最大程度减少模态特定设计。作为工业级基础模型,它能在统一框架内实现看、画、说等多模态能力,在广泛的多模态基准测试中表现优异。特别值得一提的是,LongCat-Next突破了离散视觉建模在理解任务上长期存在的性能瓶颈,并为有效协调理解与生成之间的冲突提供了统一解决方案。作为迈向原生多模态的尝试,我们开源了LongCat-Next及其标记器,以期推动社区进一步研究与发展。GitHub地址:https://github.com/meituan-longcat/LongCat-Next
建模细胞状态并预测其对扰动的响应,是计算生物学和虚拟细胞开发中的核心挑战。现有的单细胞转录组学基础模型能提供强大的静态表征,但尚未实现对细胞状态分布进行显式建模以支持生成式仿真。本文提出灵枢细胞(Lingshu-Cell)——一种掩码离散扩散模型,该模型能学习转录组状态分布并支持扰动条件下的条件仿真。通过直接作用于离散标记空间(该空间与单细胞转录组数据的稀疏性、非序列性特征相兼容),灵枢细胞无需依赖先验基因筛选(如按高变异性过滤或表达量排序),即可捕获约18,000个基因间复杂的全转录组表达依赖关系。在多种组织和物种中,灵枢细胞精准复现了转录组分布、标记基因表达模式和细胞亚型比例,证明了其捕捉复杂细胞异质性的能力。此外,通过将细胞类型或供体身份与扰动联合嵌入,该模型能预测身份与扰动新组合下的全转录组表达变化。在Virtual Cell Challenge H1基因扰动基准测试及人类PBMC细胞因子诱导响应预测中,灵枢细胞均取得领先性能。这些成果共同确立了灵枢细胞作为柔性细胞世界模型的地位,可用于细胞状态与扰动响应的计算机模拟,为生物发现和扰动筛选的新范式奠定基础。
近期,多模态生成模型在通用生成任务上取得了显著进展,但在处理复杂指令和专业化下游任务时仍面临挑战。受Claude Code等先进智能体框架成功经验的启发,我们提出GEMS(具备记忆与技能的智能体原生多模态生成框架),该框架通过突破基础模型在通用任务和下游任务上的固有局限,实现了性能跃升。GEMS建立在三大核心组件之上:智能体循环通过结构化多智能体框架实现闭环优化,迭代提升生成质量;智能体记忆提供持续性的轨迹级记忆库,分层存储事实状态与压缩经验摘要,既能统观优化全局又可减少冗余;智能体技能则提供可扩展的领域专属知识库,支持按需加载,使系统能有效应对多样化下游应用。在五大主流任务和四大下游任务的评测中,基于多种生成后端验证,GEMS均取得显著性能提升。最值得注意的是,该框架使轻量级6B模型Z-Image-Turbo在GenEval2基准上超越了当前最先进的Nano Banana 2,证明了智能体协同机制在突破模型原始能力边界方面的有效性。
基础模型凭借大规模、高质量且多样化的数据集,已在多个领域和任务中展现出卓越成效。然而在医学影像领域,由于对临床专业知识的依赖及严格的伦理隐私限制,此类医学数据集的构建与整合面临巨大挑战,导致大规模统一医学数据集稀缺,进而阻碍了强大医学基础模型的发展。本文献呈现了迄今规模最大的医学影像数据集调研,系统梳理了逾1,000个开放数据集,对其模态类型、任务目标、解剖部位、标注信息、局限性及整合潜力进行了分类编目。我们的分析揭示了当前医学影像数据集存在规模有限、任务范围碎片化、器官与模态分布不均等现状,这些因素制约了现有数据集在开发通用鲁棒医学基础模型中的效用。为将碎片化数据转化为规模优势,我们提出元数据驱动的融合范式(MDFP),通过整合具有共享模态或任务的公共数据集,将分散的小型数据孤岛转化为更统一的大型资源。基于MDFP框架,我们发布了支持端到端自动化整合的交互式数据发现平台,并将所有调研数据集汇编为结构化总表,清晰概括其关键特征并提供参考链接,为学界构建了易访问的综合资源库。通过绘制当前数据版图并提出系统化的数据集整合路径,本调研为扩展医学影像语料库提供了实用路线图,有望加速数据发现进程、推动更规范的数据集构建,并最终促进高性能医学基础模型的发展。
大规模视频扩散模型在视觉质量上表现卓越,但往往难以保持几何一致性。现有方法通过为生成器添加额外模块或采用几何感知对齐来提升一致性,但架构修改可能损害互联网规模预训练模型的泛化能力,而现有对齐方法仅适用于静态场景且依赖RGB空间奖励——这类方法需要重复进行VAE解码,计算开销巨大且难以泛化至高度动态的真实场景。为在保持预训练能力的同时提升几何一致性,我们提出VGGRPO(视觉几何GRPO),一种基于潜在空间几何指导的视频后训练框架。VGGRPO引入潜在几何模型(LGM),将视频扩散潜在特征与几何基础模型相衔接,实现从潜在空间直接解码场景几何。通过采用具备4D重建能力的几何模型构建LGM,VGGRPO天然支持动态场景,突破了传统方法局限于静态场景的瓶颈。在此基础上,我们执行潜在空间群组相对策略优化,融合两种互补奖励:惩罚抖动轨迹的相机运动平滑性奖励,以及强化多视角几何一致性的重投影一致性奖励。在静态与动态场景基准测试中,VGGRPO在提升相机稳定性、几何一致性和整体质量的同时,消除了昂贵的VAE解码开销,使潜在空间几何指导的强化学习成为高效灵活的世界一致性视频生成方案。
统一多模态模型为理解多样复杂的现实世界知识并生成高质量图像提供了一种自然且前景广阔的架构。然而,这类模型仍主要依赖冻结的参数化知识,导致其在涉及长尾和知识密集型概念的实景图像生成中存在局限。受智能体在现实任务中广泛成功的启发,我们探索通过智能体建模来解决这一问题。具体而言,我们提出Unify-Agent——一个面向世界知识落地的图像合成的统一多模态智能体,将图像生成重构为由提示理解、多模态证据检索、基于事实的标题重述及最终合成构成的智能体流程。为训练模型,我们构建了定制化的多模态数据管道,并精心标注了14.3万条高质量的世界知识落地图像合成智能体轨迹,实现对完整智能体生成过程的有效监督。我们进一步推出FactIP基准数据集,涵盖12类具有文化意义的长尾事实概念,明确要求外部知识落地。大量实验表明,我们提出的Unify-Agent在多样化基准测试和实际生成任务中显著优于其基础统一模型,同时接近最强闭源模型的世界知识处理能力。作为基于智能体的世界知识落地图像合成的早期探索,我们的工作凸显了将推理、检索与生成紧密耦合对于实现可靠开放世界智能体图像合成的重要价值。
在当前社交媒体中,视频内容与音频对齐的编辑技术已形成一种数字人工艺术。然而,耗时且重复的手动视频编辑长期以来一直是影视制作人和专业内容创作者面临的挑战。本文提出CutClaw——一种自主多智能体框架,能够将数小时的原始素材剪辑成有意义的短视频。该框架通过调用多模态语言模型作为智能体系统,生成音乐同步、指令遵循且视觉表现力强的视频作品。具体而言,我们的方法首先采用分层多模态解构技术,同步捕捉视觉与音频素材的细粒度细节和全局结构;随后,为确保叙事连贯性,剧本创作智能体负责统筹整体叙事流程,构建长期叙事框架,并将视觉场景与音乐转场精准锚定;最后,编辑与审核智能体基于严谨的美学与语义标准,通过协同选择细粒度视觉内容来优化最终成片。详细实验表明,CutClaw在生成高质量节奏同步视频方面显著优于现有最优基准方法。代码已开源:https://github.com/GVCLab/CutClaw。
基础预训练阶段决定了模型的能力上限,因为后训练难以突破预训练建立的能力基础,但这一领域仍处于严重探索不足的状态。这源于结构性矛盾:拥有算力资源的机构受商业压力制约难以透明公开,而学术机构虽具研究自由却缺乏预训练级算力资源。daVinci-LLM正占据这一空白地带,将工业级资源与完全的研究自由相结合以推动预训练科学。我们采用全开放范式,将开放视为科学方法论,完整公开数据处理流水线、训练全过程及系统化探索成果。针对领域内缺乏系统性数据处理方法的现状,我们采用"数据达尔文主义"框架——一套从过滤到合成的原则性L0-L9分级体系。通过两阶段自适应课程学习,我们从随机初始化开始使用8T词元训练了30亿参数模型,逐步从基础能力转向推理强化。经过200多项对照实验发现:数据处理深度系统性提升能力,使其成为与规模扩展并重的关键维度;不同领域呈现异质饱和动态,需采用从比例调整到格式转换的自适应策略;组合平衡可实现定向强化同时避免性能坍塌;评估方案选择如何塑造对预训练进展的认知。通过完整公开探索过程,我们推动学界基于发现与系统方法论形成预训练领域的累积性科学认知。
大型语言模型(LLM)生成的思维链(CoT)与其最终输出之间并非总是存在因果关联。当出现这种不匹配时,CoT便无法真实反映驱动模型行为的关键决策因素,从而导致CoT可监测性降低的问题。然而,目前仍缺乏全面且完全开源的研究CoT可监测性的基准。为填补这一空白,我们提出MonitorBench——一个用于评估LLM中CoT可监测性的系统性基准。该基准提供:(1)1,514个涵盖7大类19项任务的测试实例,通过精心设计的关键决策因素来刻画CoT何时能有效监测驱动LLM行为的因素;(2)两种压力测试场景,用于量化CoT可监测性的衰减程度。通过对多个不同能力的流行LLM进行广泛实验发现:当最终目标响应的生成需要基于关键决策因素进行结构化推理时,CoT可监测性更高;闭源LLM普遍表现出较低的可监测性,且可监测性与模型能力呈负相关;此外,在压力测试下开源与闭源LLM均可主动降低可监测性,某些无需对关键决策因素进行结构化推理的任务中可监测性降幅高达30%。除这些实证发现外,MonitorBench还为未来LLM评估、先进压力测试监测技术研究以及新型监测方法开发提供了基础平台。
本文提出Extend3D——一种基于物体中心三维生成模型的单图像三维场景生成免训练流程。针对物体中心模型固定尺寸潜在空间在表现广阔场景时的局限性,我们沿x轴与y轴方向扩展了潜在空间。通过将扩展后的潜在空间划分为重叠区块,我们对每个区块应用物体中心三维生成模型,并在每个时间步进行耦合。由于基于图像条件的分块三维生成要求图像与潜在区块严格空间对齐,我们采用单目深度估计器获取的点云先验初始化场景,并通过SDEdit迭代优化被遮挡区域。研究发现,将三维结构的不完整性视为噪声并在三维优化过程中进行处理,可实现通过"欠去噪"概念的三维补全。此外,为解决物体中心模型在子场景生成中的次优问题,我们在去噪过程中对扩展潜在空间进行优化,确保去噪轨迹与子场景动态保持一致。为此,我们引入了三维感知优化目标以提升几何结构与纹理保真度。实验表明,通过用户偏好评估与定量实验验证,本方法相较现有方法能产生更优结果。
近期推理大语言模型的发展主要依赖于前置思考模式,即在生成最终答案前进行推理。然而这种方法在代码生成领域存在明显局限:由于问题的完整复杂性往往在代码实现过程中才逐渐显现,前置思考常显不足。此外,该方法难以根据代码生成过程中差异显著的难度变化,实现推理资源的自适应分配。本文提出"随处思考"新机制,使大语言模型能在代码生成过程中的任意标记位置按需调用推理功能。我们通过两阶段实现该机制:首先通过冷启动训练使大语言模型掌握推理模式,继而利用基于结果的强化学习奖励驱动模型自主探索推理调用的时机与位置。在四大主流代码生成基准测试(LeetCode、LiveCodeBench、HumanEval和MBPP)上的实验表明,"随处思考"在性能上超越了现有推理方法和最新后训练方案,同时在不同大语言模型间展现出稳定的泛化能力。进一步分析揭示,该机制能使模型在高熵值位置自适应触发推理,显著提升了模型的可解释性。
科学思想生成(SIG)对AI驱动的自主研究至关重要,但现有方法常受限于静态的“检索-生成”范式,导致思想同质化且发散不足。本研究提出FlowPIE框架,通过将文献探索与思想生成视为协同演进的过程,构建紧密耦合的检索-生成机制。该框架受GFlowNets启发,采用流引导的蒙特卡洛树搜索(MCTS)扩展文献轨迹,以基于大语言模型的生成式奖励模型(GRM)对当前思想质量的评估作为监督信号,指导自适应检索并构建多样化、高质量的初始种群。在此基础上,FlowPIE将思想生成建模为测试时的思想进化过程:结合隔离岛范式与基于GRM的适应度计算,实施选择、交叉和变异操作以融入跨领域知识,有效缓解因过度依赖参数化知识与静态文献形成的信息茧房。大量实验表明,相较于基于大语言模型和智能体的强基线框架,FlowPIE持续生成具有更高新颖性、可行性与多样性的思想,并能实现测试阶段的奖励缩放。
近期图像生成模型的进展已将其应用从审美图像扩展至实用视觉内容创作领域。然而,现有基准主要关注自然图像合成,未能系统评估模型在现实商业设计任务中结构化、多约束需求下的表现。本研究推出BizGenEval——面向商业视觉内容生成的系统性基准,涵盖演示文稿、图表、网页、海报和科学插图五种典型文档类型,从文本渲染、版式控制、属性绑定及知识推理四个核心能力维度构建20项差异化评估任务。该基准包含400个精心设计的生成提示与8000道人工校验的检查项问题,可严格评估生成图像是否满足复杂的视觉与语义约束。通过对26个主流图像生成系统(包括前沿商业API和领先开源模型)的大规模测试,发现当前生成模型与专业视觉内容创作需求之间存在显著能力差距。我们期待BizGenEval能成为现实商业视觉内容生成领域的标准化评估基准。
将平面纸张转化为复杂三维结构的能力是对物理智能的基本检验。与布料操控不同,折纸艺术受严格的几何公理和刚性运动学约束支配,任何一处无效折痕或碰撞都会导致整个折叠序列失效。因此,折纸需要满足精确物理规律与高层语义意图的长程建构推理。现有方法分为两个割裂的范式:基于优化的方法能保证物理有效性,但需要密集精确的输入参数,难以适配稀疏的自然语言描述;而生成式基础模型虽擅长语义感知合成,却无法产生长程物理一致的折叠过程。由此,直接从文本生成有效折纸折叠序列仍是开放难题。为解决这一局限,我们提出Learn2Fold——一种将折纸折叠建模为折痕图条件程序归纳的神经符号框架。其核心思路在于解耦语义提议与物理验证:大语言模型根据抽象文本提示生成候选折叠程序,而习得的图结构世界模型作为可微分代理模拟器,在执行前预测物理可行性与失效模式。通过前瞻规划循环的整合,Learn2Fold能稳健生成复杂及超分布图案的物理有效折叠序列,证明有效的空间智能源于符号推理与具身物理模拟的协同作用。
感知系统通常采用模块化编码器-解码器流水线实现:通过视觉主干网络进行特征提取,再经由独立解码器(或后融合模块)完成任务预测。这引出一个核心问题:这种架构分离是否必要?能否通过单一早期融合堆栈实现大规模感知与任务建模?我们提出Falcon Perception——一种在共享参数空间中从首层开始同步处理图像块与文本标记的统一稠密Transformer,采用混合注意力机制(图像标记间双向注意力,预测标记间因果注意力)将全局视觉上下文与自回归的变长实例生成相结合。为保持稠密输出的实用性,Falcon Perception保留轻量级标记接口,并通过专用头解码连续空间输出,实现并行高分辨率掩码预测。 我们的设计追求简洁性:维持单一可扩展主干网络,将复杂度转移至数据与训练信号,仅在输出需连续稠密处添加小型预测头。在SA-Co数据集上,Falcon Perception将掩码质量提升至68.0 Macro-F_1,显著优于SAM3的62.3。我们还推出PBench基准测试,针对组合式提示(OCR、空间约束、关系推理)和稠密长上下文场景,模型在该基准上表现出更大优势。最后,我们将相同早期融合方案扩展至Falcon OCR:这个仅3亿参数的紧凑模型在olmOCR上达到80.3%准确率,在OmniDocBench上获得88.64分。
近期多模态人脸生成模型通过将基于文本的条件输入与分割掩码、草图或边缘图等空间先验信息相结合,解决了文本到图像扩散模型在空间控制方面的局限性。这种多模态融合技术实现了既符合高层语义意图又匹配底层结构布局的可控生成。然而,现有方案大多通过附加辅助控制模块或拼接独立单模态网络来扩展预训练的文本到图像流程。这些临时性设计存在架构约束、参数冗余等问题,在模态冲突或隐空间失配时往往失效,限制了跨语义与空间域的协同融合能力。我们提出MMFace-DiT——一个专为协同多模态人脸生成设计的统一双流扩散Transformer模型。其核心创新在于采用双流Transformer模块并行处理空间(掩码/草图)与语义(文本)标记,通过共享旋转位置编码注意力机制实现深度融合。该设计有效防止模态主导,确保模型同时严格遵循文本与结构先验,在可控人脸生成中实现前所未有的空间-语义一致性。此外,新颖的模态嵌入器使单一紧凑模型能动态适配不同空间条件而无需重新训练。实验表明,MMFace-DiT在视觉保真度与提示对齐度上较六种先进多模态人脸生成模型提升40%,为端到端可控生成建模建立了灵活的新范式。代码与数据集详见项目页面:https://vcbsl.github.io/MMFace-DiT/
大型语言模型在处理显性表面线索与未明言的可行性约束相冲突时,会系统性失效。我们通过"诊断-测量-桥接-处理"框架对此展开研究。针对六个模型的"洗车问题"进行因果行为分析,揭示了近似上下文无关的S型启发式规律:距离线索对决策的影响程度是目标因素的8.7至38倍,词元级归因分析显示其模式更符合关键词关联而非组合推理。启发式覆盖基准测试(HOB)——包含4类启发式×5种约束族共500个实例,配备最小对立组与显性度梯度——在14个模型中验证了该现象的普遍性:严格评估标准下(需10/10完全正确),所有模型成功率均未超过75%,存在性约束表现最差(44%)。最小提示(如强调关键对象)平均可提升15个百分点,表明失败根源在于约束推断而非知识缺失;当移除约束条件时,12/14模型表现反而下降(最大降幅39个百分点),揭示出保守偏差。参数化探针证实S型模式可推广至成本、效率及语义相似性启发式;目标分解提示通过强制模型在回答前枚举前提条件,可挽回6-9个百分点的性能损失。这些结果共同将启发式覆盖界定为系统性推理缺陷,并为衡量该问题的解决进展提供了基准尺度。
生成式视频模型虽显著推动了自动驾驶恶劣天气场景的光写实合成,但其始终依赖海量数据集来学习罕见天气模式。基于3D感知的编辑方法通过增强现有视频素材缓解了数据约束,却受限于耗时的逐场景优化瓶颈,并存在固有的几何与光照纠缠问题。本研究提出AutoWeather4D——一种前馈式3D感知天气编辑框架,旨在显式解耦几何与光照要素。该框架核心为G缓冲双通道编辑机制:几何通道利用显式结构基础实现表面锚定的物理交互,光照通道通过解析光传输将局部光源贡献累积至全局光照,从而实现动态三维局部重照明。大量实验表明,AutoWeather4D在实现与生成式基线相当的光写实度与结构一致性的同时,支持细粒度参数化物理控制,可作为自动驾驶的高效数据引擎。
持续预训练被广泛用于使大语言模型适应目标语言和领域,但训练数据的混合比例仍是需要高昂调参成本的敏感超参数:这些比例必须在训练开始前固定,而次优选择可能浪费数周算力。本研究提出OptiMer方法,将比例选择与训练过程解耦:我们为每个数据集训练一个CPT模型,提取各模型的分布向量(表征该数据集引发的参数偏移),随后通过贝叶斯优化进行事后最优组合权重搜索。基于Gemma 3 27B模型在语言(日语、中文)和领域(数学、代码)上的实验表明,OptiMer在搜索成本降低15-35倍的同时,持续优于数据混合和模型平均基线方法。关键发现包括:1)优化后的权重可解释为数据混合比例,使用这些比例重新训练能提升数据混合CPT效果;2)同一向量池可根据特定目标重复优化而无需重新训练,实现按需生成定制化模型。我们的工作证明,传统上属于训练前决策的数据混合比例选择,可重构为基于分布向量的事后优化问题,为持续预训练提供了更灵活的新范式。
我们推出VectorGym——一个涵盖文本/草图生成SVG、复杂编辑与视觉理解的综合基准测试套件。该套件针对当前缺乏符合专业设计流程的真实挑战性基准的问题,构建了包含四项专家人工标注任务的评测体系:创新的草图转SVG任务(VG-Sketch)、采用高阶图元进行多步复杂编辑的新数据集(VG-Edit)、文本生成SVG任务(VG-Text)以及SVG描述生成任务(VG-Cap)。与依赖合成编辑的现有基准不同,VectorGym提供的黄金标准人工标注要求语义理解和设计意图的深度把握。我们还提出基于渲染奖励的多任务强化学习方法,通过课程学习改进的GRPO框架训练Qwen3-VL 8B模型,在开源模型中实现最优性能,超越包括Qwen3-VL 235B在内的更大模型,并与GPT-4o持平。同时创新性地引入VLM-as-a-Judge评估指标,经人工相关性研究验证有效。对前沿视觉语言模型的评估揭示了显著性能差距,使VectorGym成为推进视觉代码生成的严格基准框架。本套件已公开于huggingface.co/datasets/ServiceNow/VectorGym。
由于深度模糊性以及从单目图像标注三维几何的固有难度,获取用于三维人体网格估计的标注数据集具有挑战性。现有数据集要么是真实数据集(包含人工标注的三维几何但规模有限),要么是基于三维引擎渲染的合成数据集(能提供精确标注但存在逼真度不足、多样性低和制作成本高的问题)。本研究探索了第三条路径:生成式数据。我们提出PoseDreamer——一种利用扩散模型生成带三维网格标注的大规模合成数据集的新型流程。该方法将可控图像生成与基于直接偏好优化的控制对齐、课程式难样本挖掘及多阶段质量过滤相结合。这些组件共同保持了三维标注与生成图像间的自然对应关系,同时优先选择具有挑战性的样本以最大化数据集效用。通过PoseDreamer,我们生成了超过50万个高质量合成样本,其图像质量指标较基于渲染的数据集提升76%。使用PoseDreamer训练出的模型性能媲美甚至优于基于真实数据集和传统合成数据集训练的模型。此外,将PoseDreamer与合成数据集结合使用,能获得优于真实数据集与合成数据集组合的效果,证明了我们数据集的互补特性。我们将公开完整数据集及生成代码。
大型语言模型(LLM)作为大型音频语言模型(LALM)的知识基础已被广泛应用,但仅通过纯文本预训练模型习得了多少听觉知识及其对下游任务的影响尚不明确。我们通过三种设置比较不同LLM以探究这一差距:(1)在AKB-2000基准测试上直接探测,该测试集专门用于评估听觉知识的广度与深度;(2)级联评估,即LLM基于音频描述器生成的文本进行推理;(3)音频接地评估,将各LLM与音频编码器结合微调为LALM。研究发现不同模型系列的听觉知识存在显著差异,且纯文本评估结果与音频性能高度相关。本研究为全面理解LLM在音频领域的应用提供了实证基础。
基于指令的多模态图像编辑技术近期发展迅速,但现有评估方法缺乏系统化且符合人类认知的框架来评判模型在复杂创意编辑任务上的表现。为此,我们提出CREval——一个基于问答机制的自动化评估流程,该方案克服了不透明多模态大语言模型评分存在的完整性不足与可解释性差的问题。同时,我们构建了CREval-Bench基准测试集,这是专为复杂指令下的创意图像编辑任务设计的综合评估体系,涵盖3大类别9个创意维度,包含800余个编辑样本和1.3万个评估问题。借助该流程与基准测试,我们系统评估了多种前沿的开源与闭源模型。结果表明:尽管闭源模型在复杂创意任务上整体优于开源模型,但所有模型仍难以有效完成此类编辑。此外,用户研究表明CREval的自动化指标与人类判断具有高度一致性。因此,CREval为评估复杂创意图像编辑任务提供了可靠基础,并揭示了未来研究的关键挑战与机遇。
无边界三维世界生成正逐渐成为计算机视觉、图形学与机器人学中场景建模的基础任务。本研究提出WorldFlow3D这一创新方法,能够生成无边界三维世界。基于流匹配的基本特性——即定义两个数据分布间的传输路径——我们将三维生成更广义地建模为在三维数据分布间的流动问题,而非局限于条件去噪。研究发现,我们的无隐变量流方法能生成具有因果性的精确三维结构,并可将其作为中间分布来引导更复杂结构及高质量纹理的生成,且收敛速度远超现有方法。通过向量化场景布局条件实现几何结构控制,结合场景属性进行视觉纹理控制,我们实现了对生成场景的可控性。在真实户外驾驶场景与合成室内场景上的实验证实了WorldFlow3D的有效性,验证了其跨领域泛化能力及在真实数据分布上的高质量生成效果。在所有测试场景中,本方法在无边界场景生成任务上均展现出优于现有技术的生成保真度。详见https://light.princeton.edu/worldflow3d。
文本数据的精准隐私评估始终是隐私保护自然语言处理领域的核心挑战。最新研究表明,大型语言模型可作为可靠的隐私评估工具,其判断与人类标注高度一致;然而,其高昂的计算成本及处理敏感数据时的大规模实操限制,阻碍了实际应用。针对这一缺陷,我们将Mistral Large 3(675B参数)的隐私评估能力蒸馏至仅需1.5亿参数的轻量级编码模型。基于涵盖10个不同领域的大规模隐私标注文本数据集,我们训练出既能保持与人类标注高度一致性,又可显著降低计算需求的高效分类器。通过人类标注测试数据的验证,我们证明了该方法作为脱敏系统评估指标的实际应用价值。
现有的人-物交互方法大多局限于刚性物体,而针对铰接物体的四维重建方法通常需要预先扫描物体甚至使用多视角视频。从单目RGB视频重建铰接物体与人交互的四维动态场景,仍是一个尚未解决但极具意义的挑战。值得庆幸的是,基础模型的近期进展为解决这一高度不适定问题提供了新机遇。为此,我们提出ArtHOI——一个基于优化的框架,能够整合并精炼来自多个基础模型的先验知识。我们的核心贡献在于开发了一套新颖方法体系,专门用于解决这些先验知识固有的不精确性和物理失真问题。具体而言,我们提出了自适应采样优化方法,通过优化物体的度量尺度和位姿,实现其归一化网格在世界空间中的准确定位。此外,我们提出基于多模态大语言模型引导的 hand-object 对齐方法,利用接触关系推理信息作为手-物网格组合优化的约束条件。为进行全面评估,我们还构建了两个新数据集ArtHOI-RGBD和ArtHOI-Wild。大量实验验证了我们的ArtHOI在不同物体和交互场景下的鲁棒性与有效性。项目地址:https://arthoi-reconstruction.github.io。
结肠镜检查的早期筛查对预防结肠癌至关重要,但缺乏密集标注的长序列视频数据集阻碍了该领域稳健人工智能系统的开发。现有数据集主要聚焦单类别息肉检测,缺乏评估现代多模态大语言模型(MLLM)所需的丰富时空与语言标注。为填补这一关键空白,我们通过新型多阶段智能体工作流构建了Colon-Bench标注系统。该流程无缝整合时序提案、边界框追踪、AI视觉验证和人机协同审核,实现对全流程手术视频的可扩展标注。最终建成的验证基准在规模上达到空前水平,包含528段视频、14种病灶类型(含息肉、溃疡及出血等)、超30万个边界框、21.3万个分割掩码和13.3万字临床描述。我们运用Colon-Bench对前沿MLLM模型进行病灶分类、开放词汇视频目标分割(OV-VOS)和视频视觉问答(VQA)的严格评估。结果显示MLLM在医学领域的定位性能显著优于SAM-3。通过分析MLLM的常见VQA错误,我们进一步提出创新的"结肠技能"提示策略,使零样本MLLM在多数模型中的性能提升最高达9.7%。数据集与代码已公开于https://abdullahamdi.com/colon-bench。
视觉语言模型(VLM)已被广泛应用于三维问答(3D QA)任务。典型流程中,从多视角提取的视觉标记与语言标记拼接后,由大语言模型(LLM)联合处理以进行推理。然而,多视角观测的聚合不可避免地引入严重的标记冗余,导致视觉标记集过大,在受限的标记预算下显著影响推理效率。视觉标记剪枝已成为解决该问题的流行策略。但现有剪枝方法主要针对二维输入或依赖间接几何线索,难以显式保留语义关键对象及维持足够的空间覆盖度以支持稳健的三维推理。本文提出SeGPruner——一种面向多视图图像高效3D QA的语义感知与几何引导的标记约简框架。具体而言,SeGPruner首先通过基于注意力的重要性模块(显著性感知标记选择器)保留语义显著的标记,确保对象关键证据得以留存;随后通过几何引导的选择器(几何感知标记多样化器)补充空间多样性标记,该模块协同考虑语义相关性与三维几何距离。这种显著性保留与几何引导多样化的协作机制,在激进标记约简下平衡了对象级证据与全局场景覆盖。在ScanQA和OpenEQA上的大量实验表明,SeGPruner在保持3D推理任务竞争力的同时,显著提升推理效率:视觉标记预算减少91%,推理延迟降低86%。
激光雷达已成为自动驾驶、机器人技术和智慧城市应用中的核心传感手段。然而,由玻璃和反射表面多路径激光回波产生的鬼点(虚假反射点)会严重降低三维建图与定位精度。现有鬼点去除方法依赖稠密点云中的几何一致性,难以处理移动激光雷达稀疏动态数据的场景。为此,我们利用全波形激光雷达技术——该技术通过捕获完整的时间强度剖面而非仅峰值距离,为移动场景中区分真实反射与鬼点提供了关键线索。针对这一新任务,我们推出首个面向移动全波形雷达鬼点检测与去除的最大标注数据集Ghost-FWL。该数据集涵盖10个多样化场景的2.4万帧数据,包含75亿个峰值级标注,规模达现有标注全波形数据集的100倍。基于此大规模数据集,我们建立了全波形鬼点检测的基线模型,并提出FWL-MAE掩码自编码器,用于全波形数据的高效自监督表征学习。实验表明,我们的基线模型在鬼点去除准确率上超越现有方法,且鬼点去除技术能显著提升下游任务性能:基于激光雷达的SLAM轨迹误差降低66%,三维目标检测的误报率减少50倍。数据集与代码已公开,可通过项目页https://keio-csg.github.io/Ghost-FWL获取。
美国各移植中心的实体器官移植患者教育材料存在显著差异,但目前缺乏系统性方法大规模量化这种异质性。我们开发了一个基于检索增强语言模型的框架,将相同患者问题与不同中心手册进行关联,并通过五级一致性分类法比较答案差异。该框架应用于23个中心的102份手册和1,115个基准问题,从问题、主题、器官和中心四个维度量化异质性。研究发现,20.8%的非缺失成对比较呈现临床意义的分歧,主要集中在状况监测和生活方式主题。内容覆盖缺口更为突出:96.2%的问题-手册组合存在相关内容缺失,其中生殖健康主题缺失率高达95.1%。中心层面的差异特征具有稳定性和可解释性,异质性反映了系统性的机构差异,可能源于患者多样性。这些发现揭示了移植患者教育材料存在信息鸿沟,基于文档的医疗问答分析为内容改进指明了方向。
由光照不稳定和逐行曝光不一致引起的闪烁伪影是短曝光摄影中的重大挑战,会严重降低图像质量。与噪声和低光照等典型伪影不同,闪烁是一种具有特定时空模式的结构化退化,现有通用修复框架未能有效处理这种模式,导致闪烁抑制效果不佳并产生重影。本研究揭示了闪烁伪影具有周期性和方向性两个本质特征,并提出基于Transformer架构的Flickerformer模型,可在消除闪烁的同时避免引入重影。该模型包含三个核心组件:基于相位的融合模块(PFM)、自相关前馈网络(AFFN)和小波方向注意力模块(WDAM)。PFM基于周期性特征通过帧间相位相关性自适应聚合连拍图像特征,AFFN利用自相关挖掘帧内结构规律性,共同增强网络对空间重复模式的感知能力。针对闪烁的方向性特征,WDAM通过小波域的高频变化指导低频暗区修复,实现闪烁伪影的精准定位。大量实验表明,Flickerformer在定量指标和视觉质量上均优于现有最优方法。源代码已发布于https://github.com/qulishen/Flickerformer。
Transformer架构,特别是扩散Transformer(DiTs),因其在扩散模型和流匹配模型中表现优于卷积UNet而被广泛采用。然而,DiTs的各向同性设计在每一层处理相同数量的分块化标记,导致训练过程计算量较大。本研究提出一种多分块Transformer设计:浅层模块使用较大分块捕捉粗粒度全局上下文,深层模块采用较小分块细化局部细节。这种分层结构在保持优异生成性能的同时,可将计算成本降低达50%(以GFLOPs计)。此外,我们还改进了时间和类别嵌入的设计,以加速训练收敛。在ImageNet数据集上的大量实验验证了所提架构的有效性。代码已发布于https://github.com/quandao10/MPDiT。
基于标准大语言模型的语音识别系统通常孤立处理话语,限制了其利用对话上下文的能力。本研究探索了多模态上下文信息是否能提升基于LLM的语音识别性能,以及如何高效表征此类上下文。我们发现,经过监督式多轮对话训练后,会话上下文主要有助于提升语境实体的识别准确率。然而,直接使用原始上下文进行条件建模的计算成本高昂,因为随着对话长度增加,前序轮次的音频标记序列会急剧膨胀。为此,我们提出抽象压缩方法,将前序轮次的音频内容替换为固定数量的学习潜变量标记,同时显式保留对应文本转录。在领域内和领域外测试集上,压缩模型以更小的前序音频存储空间实现了原始上下文条件建模的部分性能增益。我们还对压缩机制及其权衡关系进行了针对性分析。
近年来,基于视频生成模型的场景建模研究日益受到关注。然而现有方法大多依赖透视视频模型,仅能合成场景的有限观测视角,导致完整性与全局一致性不足。我们提出OmniRoam——一种可控全景视频生成框架,该框架利用全景表征所具备的每帧场景覆盖范围广、固有时空一致性强的特性,实现长时序场景漫游。该框架首先通过预览阶段,由轨迹控制视频生成模型根据输入图像或视频快速生成场景概览;随后在优化阶段对该视频进行时序扩展与空间超分,生成长时程高分辨率视频,从而实现高保真世界漫游。为训练模型,我们构建了包含合成视频与实拍视频的两大全景视频数据集。实验表明,无论是在视觉质量、可控性还是长时场景一致性方面,本框架均持续优于现有先进方法,定性与定量分析结果均验证其优越性。我们进一步展示了该框架的多种扩展应用,包括实时视频生成与三维重建。代码已开源:https://github.com/yuhengliu02/OmniRoam。
阿尔茨海默病(AD)的精准诊断需处理表格化生物标志物数据,但此类数据通常规模有限且存在缺失,导致深度学习模型往往难以超越传统方法。预训练大语言模型(LLM)具备少样本泛化、结构化推理和可解释输出等优势,为临床预测提供了范式革新。我们提出TAP-GPT(表格化阿尔茨海默病预测GPT),该框架基于TableGPT2构建,通过表格提示而非纯文本进行少样本AD分类的领域自适应微调。我们在四个ADNI衍生数据集(包含QT-PAD生物标志物及区域级结构MRI、淀粉样蛋白PET和tau PET)上评估了TAP-GPT的二分类性能。在多模态与单模态场景下,TAP-GPT不仅超越了其骨干模型,在少样本设定下优于传统机器学习基线,还与通用LLM的最新成果保持竞争力。研究表明:特征选择可缓解高维输入的性能衰减,且TAP-GPT在模拟及真实数据缺失场景下无需插补即可保持稳定性能。此外,TAP-GPT能生成与AD生物学机制一致的结构化、多模态感知推理,并在自反思机制下表现出更强稳定性,支持其在迭代式多智能体系统中的部署。据我们所知,这是首个将表格专用LLM系统应用于多模态生物标志物AD预测的研究,证明预训练模型能有效处理结构化临床预测任务,为表格LLM驱动的多智能体临床决策支持系统奠定基础。源代码已开源:https://github.com/sophie-kearney/TAP-GPT。
我们提出TokenDial框架,用于在预训练文本到视频生成模型中实现连续滑块式属性控制。尽管现代生成器能产出整体质量优秀的视频,但在不改变主体身份、背景或时间连贯性的前提下,其对属性变化程度(如特效强度或运动幅度)的控制能力有限。TokenDial基于以下发现:在中间时空视觉补丁标记空间中的加性偏移可形成语义控制方向,通过调节偏移幅度能实现外观与运动动态的连贯可预测编辑。我们无需重新训练主干网络,仅利用预训练理解信号学习属性特定的标记偏移:外观控制采用语义方向匹配,运动控制采用运动幅度缩放。通过在多样化属性和提示词上的实验验证,配合大量定量评估与人工研究,TokenDial在控制力和编辑质量方面均优于当前最优基线方法。
生成式视频编辑技术为短视频片段实现了多种以往难以达成的直观编辑操作,这对非专业编辑者尤为友好。现有方法主要侧重于规定视频中物体的三维或二维运动轨迹,或改变物体及场景的外观,同时保持视频的合理性与特征一致性。然而,目前仍缺乏能够移动物体三维运动轨迹的方法,即在保持物体相对三维运动的前提下实现位移操作。该技术的主要挑战在于获取此类场景的配对视频数据。以往方法通常通过巧妙的数生成方案从非配对视频中构建合理的数据对,但当配对视频中某一方难以从另一方生成时,该方法便会失效。为此,我们推出了TrajectoryAtlas——一个用于大规模合成配对视频数据的新型生成流程,以及基于该数据微调的视频生成器TrajectoryMover。实验表明,该方法成功实现了对物体运动轨迹的生成式位移控制。项目页面:https://chhatrekiran.github.io/trajectorymover