AI研究论文每日精选

每日精选AI研究论文及翻译

DropletVideo：探索时空一致性视频生成的数据集与方法
DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation

Mar 8

ByRunze Zhang, Guoguang Du, Xiaochuan Li, Qi Jia, Liang Jin, Lu Liu, Jingjing Wang, Cong Xu, Zhenhua Guo, Yaqian Zhao, Xiaoli Gong, Rengang Li, Baoyu Fan

138

时空一致性是视频生成领域的一个关键研究课题。一个合格的生成视频片段必须确保情节的合理性和连贯性，同时在不同视角下保持物体和场景的视觉一致性。以往的研究，尤其是开源项目，主要集中于时间或空间一致性，或它们的基本组合，例如在提示后附加相机运动的描述，而不限制该运动的结果。然而，相机运动可能会引入新物体到场景中或移除现有物体，从而叠加并影响先前的叙述。特别是在包含大量相机运动的视频中，多个情节之间的相互作用变得愈发复杂。本文引入并探讨了整体时空一致性，考虑了情节进展与摄影技术之间的协同作用，以及先前内容对后续生成的长远影响。我们的研究从数据集构建延伸至模型开发。首先，我们构建了DropletVideo-10M数据集，该数据集包含1000万个具有动态相机运动和物体动作的视频。每个视频平均配有206个词的注释，详细描述了各种相机运动和情节发展。随后，我们开发并训练了DropletVideo模型，该模型在视频生成过程中擅长保持时空连贯性。DropletVideo数据集和模型可通过https://dropletx.github.io访问。

Being-0：一款配备视觉语言模型与模块化技能的人形机器人代理
Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills

Mar 16

ByHaoqi Yuan, Yu Bai, Yuhui Fu, Bohan Zhou, Yicheng Feng, Xinrun Xu, Yi Zhan, Börje F. Karlsson, Zongqing Lu

构建能够在现实世界具身任务中达到人类水平表现的自主机器人代理，是人形机器人研究的终极目标。近期进展在基础模型（FMs）的高层次认知能力及人形机器人低层次技能开发方面取得了显著进步。然而，直接将这两部分结合往往导致在长时程任务中因错误累积及不同模块的延迟差异而表现出较差的鲁棒性和效率。我们提出了Being-0，一个将FM与模块化技能库集成的层次化代理框架。FM负责高层次认知任务，如指令理解、任务规划与推理，而技能库则为低层次控制提供稳定的运动与灵巧操作能力。为弥合这两层间的鸿沟，我们引入了一个由轻量级视觉语言模型（VLM）驱动的新型连接器模块。该连接器通过将基于语言的计划转化为可执行的技能指令，并动态协调运动与操作以提升任务成功率，从而增强了FM的具身能力。除FM外，所有组件均可部署于低成本机载计算设备上，使Being-0在配备灵巧手与主动视觉系统的全尺寸人形机器人上实现了高效、实时的性能表现。在大型室内环境中的大量实验验证了Being-0在解决需要复杂导航与操作子任务的长期任务中的有效性。更多详情与视频，请访问https://beingbeyond.github.io/being-0。

免费使用扩散变换器实现万物个性化
Personalize Anything for Free with Diffusion Transformer

Mar 16

ByHaoran Feng, Zehuan Huang, Lin Li, Hairong Lv, Lu Sheng

个性化图像生成旨在根据用户指定的概念生成图像，同时实现灵活的编辑功能。近期提出的免训练方法虽然展现出比基于训练的方法更高的计算效率，但在身份保持、适用性以及与扩散变换器（DiTs）的兼容性方面仍面临挑战。本文揭示了DiT尚未开发的潜力，即仅需将去噪标记替换为参考主体的标记，即可实现零样本主体重建。这一简单却有效的特征注入技术解锁了从个性化到图像编辑的多样化应用场景。基于这一发现，我们提出了“Personalize Anything”框架，这是一个免训练的系统，通过以下方式在DiT中实现个性化图像生成：1）时间步自适应标记替换，通过早期阶段注入确保主体一致性，并通过后期阶段正则化增强灵活性；2）采用补丁扰动策略以提升结构多样性。我们的方法无缝支持布局引导生成、多主体个性化及掩码控制编辑。评估结果表明，该方法在身份保持和多功能性方面达到了业界领先水平。本研究不仅为DiTs提供了新的见解，还构建了一个高效个性化的实用范式。

SPIN-Bench：大语言模型在战略规划与社会推理方面的表现如何？
SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially?

Mar 16

ByJianzhu Yao, Kevin Wang, Ryan Hsieh, Haisu Zhou, Tianqing Zou, Zerui Cheng, Zhangyang Wang, Pramod Viswanath

社交互动中的推理与策略行为是智能的重要标志。这种推理形式远比静态环境下的孤立规划或推理任务（如数学问题求解）更为复杂。本文提出了一种新的多领域评估框架——战略规划、互动与协商（SPIN-Bench），旨在衡量战略规划与社交推理的智能水平。尽管现有许多基准测试专注于狭窄的规划或单智能体推理，SPIN-Bench将经典的PDDL任务、竞争性棋盘游戏、合作性卡牌游戏以及多智能体协商场景统一于一个框架之中。该框架不仅包含基准测试，还提供了一个模拟和评估多种社交场景的竞技场，以测试AI智能体的推理与策略行为。我们通过系统性地改变动作空间、状态复杂度及交互智能体数量，构建了SPIN-Bench基准，模拟了多种社交环境，其中成功不仅依赖于有条不紊的逐步决策，还需对其他（对抗性或合作性）参与者的概念性推断。实验表明，尽管当代大型语言模型在基础事实检索和短期规划上表现尚可，但在需要跨越大规模状态空间的深度多跳推理及不确定性下的社交协调任务中，它们遇到了显著的性能瓶颈。我们期待SPIN-Bench能成为未来研究稳健多智能体规划、社交推理及人机协作的催化剂。

DreamRenderer：驾驭大规模文本到图像模型中的多实例属性控制
DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models

Mar 17

ByDewei Zhou, Mingwei Li, Zongxin Yang, Yi Yang

基于图像条件的生成方法，如深度图和边缘检测图引导的技术，已展现出精确图像合成的卓越能力。然而，现有模型在准确控制多个实例（或区域）内容方面仍面临困难。即便是FLUX和3DIS等顶尖模型，也存在实例间属性泄露等问题，限制了用户对生成过程的掌控。为解决这些挑战，我们提出了DreamRenderer，一种无需额外训练、基于FLUX模型的创新方案。DreamRenderer允许用户通过边界框或遮罩精确控制每个实例的内容，同时确保整体视觉的和谐统一。我们引入了两项核心技术：1）**硬文本属性绑定的桥接图像令牌**，通过复制图像令牌作为桥梁，确保仅基于文本数据预训练的T5文本嵌入在联合注意力机制中为每个实例绑定正确的视觉属性；2）**关键层硬图像属性绑定**，通过对FLUX的分析，我们识别出负责实例属性渲染的关键层，仅在这些层应用硬图像属性绑定，而在其他层采用软绑定策略，以此在保证图像质量的同时实现精准控制。在COCO-POS和COCO-MIG基准测试上的评估显示，DreamRenderer相较于FLUX将图像成功率提升了17.7%，并使得GLIGEN和3DIS等布局到图像模型的性能最高提升了26.8%。项目页面：https://limuloo.github.io/DreamRenderer/。

多模态思维链推理：全面综述
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey

Mar 16

ByYaoting Wang, Shengqiong Wu, Yuecheng Zhang, William Wang, Ziwei Liu, Jiebo Luo, Hao Fei

通过将人类逐步思维链（CoT）推理的优势扩展到多模态场景，多模态思维链（MCoT）推理近期引起了广泛的研究关注，尤其是在与多模态大语言模型（MLLMs）的融合方面。现有的MCoT研究设计了多种方法论和创新推理范式，以应对图像、视频、语音、音频、3D及结构化数据等不同模态的独特挑战，在机器人、医疗、自动驾驶及多模态生成等应用领域取得了显著成功。然而，MCoT仍面临独特的挑战与机遇，需要进一步关注以确保该领域的持续繁荣，遗憾的是，目前尚缺乏对这一领域的最新综述。为填补这一空白，我们首次系统性地综述了MCoT推理，阐明了相关的基础概念与定义。我们提供了一个全面的分类体系，并从不同应用场景的多元视角对现有方法进行了深入分析。此外，我们还对现有挑战及未来研究方向提出了见解，旨在推动多模态通用人工智能（AGI）的创新。

R1-VL：通过逐步分组相对策略优化学习多模态大语言模型的推理能力
R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization

Mar 17

ByJingyi Zhang, Jiaxing Huang, Huanjin Yao, Shunyu Liu, Xikun Zhang, Shijian Lu, Dacheng Tao

近期研究通常通过在高质量链式思维推理数据上进行监督微调来增强多模态大语言模型（MLLMs）的推理能力，但这往往导致模型仅模仿成功的推理路径，而未能理解错误推理路径的本质。本研究中，我们旨在提升MLLMs的推理能力，使其超越被动模仿正面推理路径的局限。为此，我们设计了逐步组相对策略优化（StepGRPO），这是一种新型在线强化学习框架，通过简单、有效且密集的逐步奖励机制，使MLLMs能够自我提升推理能力。具体而言，StepGRPO引入了两种基于规则的推理奖励：逐步推理准确度奖励（StepRAR）和逐步推理有效性奖励（StepRVR）。StepRAR通过软关键步骤匹配技术，奖励包含必要中间推理步骤的推理路径；而StepRAR则通过推理完整性和逻辑评估策略，奖励遵循结构良好、逻辑一致的推理过程。基于所提出的StepGRPO，我们推出了R1-VL系列MLLMs，该系列模型在逐步推理方面展现出卓越能力。在8个基准测试上的广泛实验验证了我们方法的优越性。

编辑迁移：通过视觉上下文关系学习图像编辑
Edit Transfer: Learning Image Editing via Vision In-Context Relations

Mar 17

ByLan Chen, Qi Mao, Yuchao Gu, Mike Zheng Shou

我们引入了一种新场景——编辑迁移（Edit Transfer），其中模型仅通过单个源-目标示例学习转换，并将其应用于新的查询图像。尽管基于文本的方法在通过文本提示进行语义操作方面表现出色，但在精确的几何细节（如姿态和视角变化）上往往力不从心。另一方面，基于参考的编辑通常侧重于风格或外观，难以处理非刚性变换。通过明确从源-目标对中学习编辑转换，编辑迁移有效缓解了仅依赖文本和外观参考的局限性。受大语言模型中的上下文学习启发，我们提出了一种视觉关系上下文学习范式，该范式建立在基于DiT的文本到图像模型之上。我们将编辑示例与查询图像整合为一个统一的四格复合图，然后应用轻量级的LoRA微调，以从少量示例中捕捉复杂的空间变换。尽管仅使用了42个训练样本，编辑迁移在多种非刚性场景下显著超越了当前最先进的TIE和RIE方法，展示了少样本视觉关系学习的有效性。

BlobCtrl：一个统一且灵活的元素级图像生成与编辑框架
BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing

Mar 17

ByYaowei Li, Lingen Li, Zhaoyang Zhang, Xiaoyu Li, Guangzhi Wang, Hongxiang Li, Xiaodong Cun, Ying Shan, Yuexian Zou

在数字内容创作中，元素级别的视觉操控至关重要，然而当前基于扩散模型的方法在精确性和灵活性上仍不及传统工具。本研究中，我们提出了BlobCtrl框架，它通过基于概率的blob表示统一了元素级别的生成与编辑。采用blob作为视觉基元，我们的方法有效地解耦并表达了空间位置、语义内容及身份信息，从而实现了精确的元素级操控。我们的主要贡献包括：1）一种双分支扩散架构，结合层次特征融合，实现前景与背景的无缝整合；2）自监督训练范式，配备定制数据增强与评分函数；3）可控的dropout策略，以平衡保真度与多样性。为促进进一步研究，我们引入了BlobData用于大规模训练，以及BlobBench用于系统评估。实验表明，BlobCtrl在多种元素级操控任务中表现卓越，同时保持计算效率，为精确且灵活的视觉内容创作提供了实用解决方案。项目页面：https://liyaowei-stu.github.io/project/BlobCtrl/

MicroVQA：面向显微科学研究的跨模态推理基准
MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research

Mar 17

ByJames Burgess, Jeffrey J Nirschl, Laura Bravo-Sánchez, Alejandro Lozano, Sanket Rajan Gupte, Jesus G. Galaz-Montoya, Yuhui Zhang, Yuchang Su, Disha Bhowmik, Zachary Coman, Sarina M. Hasan, Alexandra Johannesson, William D. Leineweber, Malvika G Nair, Ridhi Yarlagadda, Connor Zuraski, Wah Chiu, Sarah Cohen, Jan N. Hansen, Manuel D Leonetti, Chad Liu, Emma Lundberg, Serena Yeung-Levy

科学研究要求对多模态数据进行复杂的推理，这一挑战在生物学领域尤为突出。尽管多模态大语言模型（MLLMs）在AI辅助研究方面取得了最新进展，现有的多模态推理基准仅针对大学水平难度，而研究级基准则侧重于低层次的感知，未能满足科学发现所需的复杂多模态推理。为填补这一空白，我们推出了MicroVQA，一个视觉问答（VQA）基准，旨在评估研究流程中至关重要的三种推理能力：专家级图像理解、假设生成及实验设计。MicroVQA包含1,042道由生物学专家精心策划的多选题（MCQs），涵盖多种显微镜技术，确保VQA样本反映真实的科学实践。在构建基准过程中，我们发现标准MCQ生成方法易引发语言捷径，因此提出了一种新的两阶段流程：首先，优化的LLM提示将问答对结构化为MCQs；随后，基于代理的“RefineBot”对其进行更新以消除捷径。对最先进的MLLMs进行基准测试显示，最高准确率为53%；较小LLM的模型仅略逊于顶级模型，表明基于语言的推理挑战性低于多模态推理；而利用科学文献进行调优可提升性能。专家对思维链响应的分析表明，感知错误最为常见，其次是知识错误和过度泛化错误。这些洞见凸显了多模态科学推理的挑战，证明MicroVQA是推动AI驱动生物医学研究的重要资源。MicroVQA可在https://huggingface.co/datasets/jmhb/microvqa获取，项目页面位于https://jmhb0.github.io/microvqa。

WideRange4D：实现大范围运动与场景的高质量四维重建
WideRange4D: Enabling High-Quality 4D Reconstruction with Wide-Range Movements and Scenes

Mar 17

ByLing Yang, Kaixin Zhu, Juanxi Tian, Bohan Zeng, Mingbao Lin, Hongjuan Pei, Wentao Zhang, Shuicheng Yan

随着三维重建技术的快速发展，四维重建研究也在不断推进，现有的四维重建方法已能生成高质量的四维场景。然而，由于多视角视频数据获取的挑战，当前的四维重建基准主要局限于展示原地动作，如舞蹈等，场景范围有限。实际应用中，许多场景涉及大范围的空间运动，这凸显出现有四维重建数据集的局限性。此外，现有四维重建方法依赖变形场来估计三维物体的动态变化，但变形场难以处理大范围的空间运动，这限制了实现高质量大范围空间运动四维场景重建的能力。本文聚焦于具有显著物体空间运动的四维场景重建，提出了一个新颖的四维重建基准——WideRange4D。该基准包含丰富的大空间变化四维场景数据，能够更全面地评估四维生成方法的生成能力。进一步地，我们提出了一种新的四维重建方法——Progress4D，它在多种复杂四维场景重建任务中均能生成稳定且高质量的四维结果。我们在WideRange4D上进行了定量与定性的对比实验，结果表明Progress4D优于现有的顶尖四维重建方法。项目地址：https://github.com/Gen-Verse/WideRange4D。

reWordBench：通过输入变换评估并提升奖励模型的鲁棒性
reWordBench: Benchmarking and Improving the Robustness of Reward Models with Transformed Inputs

Mar 14

ByZhaofeng Wu, Michihiro Yasunaga, Andrew Cohen, Yoon Kim, Asli Celikyilmaz, Marjan Ghazvininejad

奖励模型已成为现代自然语言处理（NLP）中的核心工具，不仅作为可扩展的文本评估器，更是众多对齐方案和推理时算法不可或缺的组成部分。然而，尽管近期奖励模型在标准基准测试上提升了性能，部分原因可能源于过拟合效应，这混淆了对其真实能力的理解。本研究深入探讨了奖励模型的鲁棒性及此类过拟合的程度。我们构建了**reWordBench**，系统性地以保持语义或排序不变的方式转换奖励模型的输入。研究表明，即便输入发生微小变化，最先进的奖励模型也会遭受显著的性能下降，有时甚至跌至远低于随机准确率的水平，暗示其脆弱性。为增强奖励模型的鲁棒性，我们提出明确训练它们为同义句赋予相似分数，并发现此方法同样提升了模型对其他类型转换的鲁棒性。例如，在RewardBench的Chat Hard子集上，我们的鲁棒奖励模型将此类性能下降减少了约一半。此外，当应用于对齐任务时，我们的鲁棒奖励模型展现出更优的实用性，并生成更高质量的输出，在高达59%的实例中胜过了标准训练的奖励模型。

VideoMind：面向长视频推理的LoRA链式智能体
VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning

Mar 17

ByYe Liu, Kevin Qinghong Lin, Chang Wen Chen, Mike Zheng Shou

视频以其独特的时间维度，要求精确的接地理解，即答案需直接关联到可视且可解释的证据。尽管大语言模型在推理能力上取得了显著突破，但多模态推理——尤其是针对视频的推理——仍未被充分探索。在本研究中，我们推出了VideoMind，一款专为时间接地视频理解设计的新型视频-语言智能体。VideoMind融入了两大创新点：(i) 我们识别了视频时间推理的关键能力，并构建了一个基于角色的智能工作流，包括协调不同角色的规划器、负责时间定位的接地器、评估时间区间准确性的验证器，以及执行问答的解答器。(ii) 为高效整合这些多样角色，我们提出了一种新颖的Chain-of-LoRA策略，通过轻量级的LoRA适配器实现无缝角色切换，同时避免了多模型带来的开销，从而在效率与灵活性之间取得平衡。在14个公开基准上的广泛实验表明，我们的智能体在多样化视频理解任务中均达到了最先进的性能，包括3个接地视频问答、6个视频时间定位和5个通用视频问答任务，充分证明了其在推进视频智能体及长时态推理方面的有效性。

V-STaR：视频大语言模型在视频时空推理上的基准测试
V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning

Mar 14

ByZixu Cheng, Jian Hu, Ziquan Liu, Chenyang Si, Wei Li, Shaogang Gong

人类处理视频推理时遵循一种序列化的时空推理逻辑：首先识别相关帧（“何时”），然后分析关键对象之间的空间关系（“何处”），最后利用这些关系进行推断（“何事”）。然而，视频大语言模型（Video-LLMs）是否也能在视频中“通过序列化的时空逻辑进行推理”呢？现有的Video-LLM基准测试主要侧重于评估对象的存在性，而忽视了关系推理。因此，难以衡量模型是否真正理解了视频中对象的交互（动作/事件），还是仅仅依赖预训练中的共现“记忆”作为生成答案的偏见。在本研究中，我们引入了视频时空推理（V-STaR）基准测试以解决这些不足。其核心思想是将视频理解分解为逆向时空推理（RSTR）任务，同时评估对象的存在、事件发生的时间及其位置，并捕捉背后的思维链（CoT）逻辑。为支持这一评估，我们构建了一个数据集，旨在激发Video-LLMs的时空推理过程。该数据集包含由半自动化GPT-4驱动流程生成的从粗到细的CoT问题，嵌入显式推理链以模拟人类认知。基于14个Video-LLMs在V-STaR上的实验揭示了当前Video-LLMs与稳健且一致的时空推理需求之间存在显著差距。

基于自由形式语言的机器人推理与抓取
Free-form language-based robotic reasoning and grasping

Mar 17

ByRunyu Jiao, Alice Fasoli, Francesco Giuliari, Matteo Bortolon, Sergio Povoli, Guofeng Mei, Yiming Wang, Fabio Poiesi

基于人类指令从杂乱容器中执行机器人抓取是一项极具挑战性的任务，因为它需要同时理解自由形式语言的细微差别以及物体间的空间关系。在网页规模数据上训练的视觉-语言模型（VLMs），如GPT-4o，已展现出跨文本和图像的卓越推理能力。然而，它们是否能在零样本设置下真正胜任此任务？又存在哪些局限？本文通过自由语言引导的机器人抓取任务探讨了这些研究问题，并提出了一种新方法——FreeGrasp，该方法利用预训练VLMs的世界知识来推理人类指令及物体空间布局。我们的方法将所有物体检测为关键点，并利用这些关键点在图像上标注标记，旨在促进GPT-4o的零样本空间推理。这使得我们的方法能够判断请求的物体是否可直接抓取，或是需要先抓取并移除其他物体。鉴于现有数据集均未专门为此任务设计，我们通过扩展MetaGraspNetV2数据集，引入了一个合成数据集FreeGraspData，其中包含人工标注的指令和真实抓取序列。我们利用FreeGraspData进行了广泛分析，并配备了夹爪的机械臂进行了现实世界验证，展示了在抓取推理与执行方面的顶尖性能。项目网站：https://tev-fbk.github.io/FreeGrasp/。

奖励机制足以实现快速逼真的文本到图像生成
Rewards Are Enough for Fast Photo-Realistic Text-to-image Generation

Mar 17

ByYihong Luo, Tianyang Hu, Weijian Luo, Kenji Kawaguchi, Jing Tang

在人工智能生成内容（AIGC）领域，将生成的图像与复杂文本提示及人类偏好对齐是一项核心挑战。随着奖励增强的扩散蒸馏方法崭露头角，成为提升文本到图像模型可控性与保真度的有效途径，我们观察到一种根本性的范式转变：随着条件愈发具体且奖励信号增强，奖励本身在生成过程中占据了主导地位。相比之下，扩散损失则沦为一种成本过高的正则化形式。为全面验证这一假设，我们引入了R0，一种通过正则化奖励最大化实现条件生成的新方法。R0摒弃了复杂的扩散蒸馏损失，转而提出了一种新视角，将图像生成视为数据空间中的优化问题，旨在寻找具有高组合奖励的有效图像。通过创新的生成器参数化设计与恰当的正则化技术，我们利用R0大规模训练了当前最先进的少步文本到图像生成模型。我们的研究成果挑战了扩散后训练与条件生成的常规认知，证明了在复杂条件下奖励的主导作用。我们期望这些发现能推动AIGC领域内更多以人为中心、以奖励为中心的生成范式研究。代码已发布于https://github.com/Luo-Yihong/R0。

MTV-Inpaint：多任务长视频修复
MTV-Inpaint: Multi-Task Long Video Inpainting

Mar 14

ByShiyuan Yang, Zheng Gu, Liang Hou, Xin Tao, Pengfei Wan, Xiaodong Chen, Jing Liao

视频修复涉及对视频中的局部区域进行修改，确保空间和时间上的一致性。现有方法大多集中于场景补全（即填充缺失区域），而缺乏以可控方式向场景中插入新对象的能力。幸运的是，近期文本到视频（T2V）扩散模型的进展为文本引导的视频修复开辟了道路。然而，直接将T2V模型应用于修复在统一补全与插入任务、输入可控性以及处理长视频方面仍存在局限，从而限制了其适用性和灵活性。为应对这些挑战，我们提出了MTV-Inpaint，一个统一的多任务视频修复框架，能够同时处理传统的场景补全和新型的对象插入任务。为了统一这些不同任务，我们在T2V扩散U-Net中设计了一种双分支空间注意力机制，使得场景补全与对象插入能在单一框架内无缝集成。除了文本引导外，MTV-Inpaint还通过我们提出的图像到视频（I2V）修复模式，整合多种图像修复模型，支持多模态控制。此外，我们提出了一种两阶段流程，结合关键帧修复与中间帧传播，使MTV-Inpaint能够有效处理包含数百帧的长视频。大量实验证明，MTV-Inpaint在场景补全和对象插入任务上均达到了最先进的性能。更进一步，它在多模态修复、对象编辑、移除、图像对象笔刷等衍生应用以及处理长视频的能力上展现了广泛的适用性。项目页面：https://mtv-inpaint.github.io/。

基于多智能体协作的长视频音频合成
Long-Video Audio Synthesis with Multi-Agent Collaboration

Mar 13

ByYehang Zhang, Xinli Xu, Xiaojie Xu, Li Liu, Yingcong Chen

视频到音频的合成技术，通过为视觉内容生成同步音频，显著提升了电影和互动媒体中观众的沉浸感与叙事连贯性。然而，针对长篇内容的视频到音频配音仍是一个未解的难题，这归因于动态语义变化、时间线错位以及缺乏专门的数据集。尽管现有方法在短视频处理上表现优异，但在长场景（如电影）中却因合成片段化及跨场景一致性不足而受限。我们提出了LVAS-Agent，一种创新的多代理框架，它通过角色分工协作模拟专业配音流程。该方案将长视频合成分解为四个步骤：场景分割、剧本生成、音效设计及音频合成。核心创新包括用于场景/剧本优化的讨论-修正机制，以及实现时间-语义对齐的生成-检索循环。为了系统评估，我们推出了LVAS-Bench，这是首个包含207个专业精选、覆盖多样场景的长视频基准测试集。实验结果表明，相较于基线方法，我们的方法在音视频对齐方面表现更优。项目页面：https://lvas-agent.github.io

视觉计数：利用视力用户反馈构建面向视障人士的图表描述数据集
Sightation Counts: Leveraging Sighted User Feedback in Building a BLV-aligned Dataset of Diagram Descriptions

Mar 17

ByWan Ju Kang, Eunki Kim, Na Min An, Sangryul Kim, Haemin Choi, Ki Hoon Kwak, James Thorne

通常，标注者群体与终端用户群体的需求和视觉能力存在差异。为盲人和低视力（BLV）用户生成详细的图表描述便是这样一个具有挑战性的领域。视力正常的标注者虽能轻松描述视觉内容，但现有研究表明，他们直接生成的描述不仅成本高昂、易带偏见，且按BLV标准衡量仍有所欠缺。在本研究中，我们邀请视力正常者评估——而非直接生成——由视觉语言模型（VLM）通过多轮推理隐式监督引导生成的图表描述。这些视力正常者的评估结果对身为BLV并教授视障学习者的专业教育者而言，被证明是有效且实用的。我们发布了Sightation，一个包含5千张图表和13.7万样本的图表描述数据集集合，旨在支持完成、偏好、检索、问答及推理训练等多种用途，并展示了其在多种下游任务中的微调潜力。

使用NVIDIA NeMo训练视频基础模型
Training Video Foundation Models with NVIDIA NeMo

Mar 17

ByZeeshan Patel, Ethan He, Parth Mannan, Xiaowei Ren, Ryan Wolf, Niket Agarwal, Jacob Huffman, Zhuoyao Wang, Carl Wang, Jack Chang, Yan Bai, Tommy Huang, Linnan Wang, Sahil Jain, Shanmugam Ramasamy, Joseph Jennings, Ekaterina Sirazitdinova, Oleg Sudakov, Mingyuan Ma, Bobby Chen, Forrest Lin, Hao Wang, Vasanth Rao Naik Sabavat, Sriharsha Niverty, Rong Ou, Pallab Bhattacharya, David Page, Nima Tajbakhsh, Ashwath Aithal

视频基础模型（VFMs）近期被用于模拟现实世界，以训练物理AI系统并开发创意视觉体验。然而，在训练能够生成高质量视频的大规模、高质量VFMs方面，仍存在显著挑战。我们展示了一个可扩展的开源VFM训练流程，基于NVIDIA NeMo，提供了加速的视频数据集整理、多模态数据加载以及并行化的视频扩散模型训练与推理。此外，我们还提供了一份全面的性能分析，强调了高效VFM训练与推理的最佳实践。

自回归视频扩散模型的误差分析：一个统一框架
Error Analyses of Auto-Regressive Video Diffusion Models: A Unified Framework

Mar 12

ByJing Wang, Fengzhuo Zhang, Xiaoli Li, Vincent Y. F. Tan, Tianyu Pang, Chao Du, Aixin Sun, Zhuoran Yang

多种自回归视频扩散模型（ARVDM）在生成长视频方面取得了显著成功。然而，针对这些模型的理论分析仍然匮乏。在本研究中，我们为这些模型建立了理论基础，并利用我们的洞见来提升现有模型的性能。我们首先提出了Meta-ARVDM，这是一个统一框架，涵盖了大多数现有方法。通过Meta-ARVDM，我们分析了模型生成视频与真实视频之间的KL散度。我们的分析揭示了ARVDM固有的两个重要现象——误差累积和内存瓶颈。通过推导信息论上的不可能性结果，我们证明了内存瓶颈现象无法避免。为了缓解内存瓶颈，我们设计了多种网络结构，以显式地利用更多过去帧。同时，通过压缩帧，我们在缓解内存瓶颈与推理效率之间实现了显著改进的权衡。在DMLab和Minecraft上的实验结果验证了我们方法的有效性。我们的实验还展示了不同方法在误差累积与内存瓶颈之间的帕累托前沿。

探究人类对齐的大型语言模型不确定性
Investigating Human-Aligned Large Language Model Uncertainty

Mar 16

ByKyle Moore, Jesse Roberts, Daryl Watson, Pamela Wisniewski

近期研究致力于量化大型语言模型的不确定性，以促进模型调控并调节用户信任。先前的工作主要关注那些具有理论依据或反映模型平均显性行为的不确定性度量。在本研究中，我们探讨了多种不确定性度量方法，旨在识别与人类群体层面不确定性相关联的度量指标。我们发现，贝叶斯度量及一种基于熵的变体——top-k熵，随着模型规模的变化，其表现与人类行为趋于一致。我们还观察到，某些强效度量在模型规模增大时与人类相似性降低，但通过多元线性回归分析，我们发现结合多种不确定性度量能够提供与人类对齐相当的效果，同时减少对模型规模的依赖。

GenStereo：迈向开放世界的立体图像生成与无监督匹配
GenStereo: Towards Open-World Generation of Stereo Images and Unsupervised Matching

Mar 17

ByFeng Qiao, Zhexiao Xiong, Eric Xing, Nathan Jacobs

立体图像在诸多应用中扮演着基础角色，包括扩展现实（XR）设备、自动驾驶以及机器人技术。然而，获取高质量的立体图像仍面临挑战，这主要源于双摄像头系统所需的精确校准以及获取准确密集视差图的复杂性。现有的立体图像生成方法往往侧重于视觉质量以优化观看体验，或几何精度以提升匹配效果，但鲜有兼顾两者。为此，我们提出了GenStereo，一种基于扩散模型的方法，旨在弥合这一鸿沟。该方法包含两大创新点：(1) 在扩散过程中引入视差感知坐标嵌入与变形输入图像作为条件，从而实现了比以往方法更为精确的立体对齐；(2) 采用自适应融合机制，智能地将扩散生成的图像与变形图像结合，既增强了真实感，又保证了视差一致性。通过在11个多样化的立体数据集上进行广泛训练，GenStereo展现了强大的泛化能力，在立体图像生成和无监督立体匹配任务中均达到了业界领先水平。我们的框架不仅免除了复杂硬件配置的需求，还能生成高质量的立体图像，这对于实际应用场景和无监督学习环境均具有重要价值。项目页面请访问：https://qjizhi.github.io/genstereo。

利用机制可解释性构建针对大型语言模型的对抗性攻击
Using Mechanistic Interpretability to Craft Adversarial Attacks against Large Language Models

Mar 8

ByThomas Winninger, Boussad Addad, Katarzyna Kapusta

传统的针对大语言模型（LLM）生成对抗性扰动的白盒方法，通常仅依赖于目标模型的梯度计算，忽视了决定攻击成败的内部机制。相反，分析这些内部机制的可解释性研究，除了运行时干预外，缺乏实际应用。我们通过引入一种新颖的白盒方法，利用机制可解释性技术来构建实用的对抗性输入，从而弥合了这一差距。具体而言，我们首先识别接受子空间——即不会触发模型拒绝机制的特征向量集合，然后采用基于梯度的优化方法，将嵌入从拒绝子空间重新路由至接受子空间，有效实现越狱。这种针对性方法显著降低了计算成本，在包括Gemma2、Llama3.2和Qwen2.5在内的最新模型上，攻击成功率达到了80-95%，且仅需几分钟甚至几秒，而现有技术往往失败或需要数小时计算。我们相信，这一方法为攻击研究和防御开发开辟了新方向。此外，它展示了机制可解释性在其他方法效率较低时的实际应用，凸显了其实用价值。代码及生成的数据集可在https://github.com/Sckathach/subspace-rerouting获取。

WISA：面向物理感知文本到视频生成的世界模拟器助手
WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation

Mar 11

ByJing Wang, Ao Ma, Ke Cao, Jun Zheng, Zhanjie Zhang, Jiasong Feng, Shanyuan Liu, Yuhang Ma, Bo Cheng, Dawei Leng, Yuhui Yin, Xiaodan Liang

近期，文本到视频（T2V）生成技术如SoRA和Kling的快速发展，展现了构建世界模拟器的巨大潜力。然而，当前的T2V模型在理解抽象物理原理及生成符合物理定律的视频方面仍面临挑战。这一难题主要源于抽象物理原理与生成模型之间存在显著鸿沟，导致物理信息缺乏明确指导。为此，我们引入了世界模拟器助手（WISA），一个有效框架，旨在将物理原理分解并融入T2V模型中。具体而言，WISA将物理原理分解为文本物理描述、定性物理类别及定量物理属性。为了在生成过程中有效嵌入这些物理特性，WISA整合了多项关键设计，包括物理专家混合注意力机制（MoPA）和物理分类器，从而增强模型的物理感知能力。此外，现有大多数数据集中的视频要么物理现象表现薄弱，要么与多种并发过程交织，限制了它们作为学习明确物理原理专用资源的适用性。我们提出了一种新颖的视频数据集WISA-32K，基于定性物理类别收集，包含32,000个视频，涵盖动力学、热力学和光学三个物理领域的17条物理定律。实验结果表明，WISA能有效提升T2V模型与现实世界物理定律的兼容性，在VideoPhy基准测试上取得了显著进步。WISA及WISA-32K的视觉展示可访问https://360cvgroup.github.io/WISA/。

视觉语言模型中的基础类别应用
Basic Category Usage in Vision Language Models

Mar 16

ByHunter Sawyer, Jesse Roberts, Kyle Moore

心理学领域早已认识到人类在标记视觉刺激时所采用的一种基础分类层次，这一概念由Rosch于1976年提出。研究发现，这一分类层次被使用得最为频繁，具有更高的信息密度，并能在人类视觉语言任务中通过启动效应提供帮助。本文探讨了两种近期发布的开源视觉语言模型（VLMs）中的基础层次分类行为。研究表明，Llama 3.2 Vision Instruct（11B）和Molmo 7B-D均倾向于采用与人类行为一致的基础层次分类。此外，这些模型的偏好与人类微妙的行为特征相符，如生物与非生物基础层次效应以及广为人知的专家基础层次转变，进一步表明VLMs从训练所用的人类数据中习得了认知分类行为。

AI研究论文每日精选

每日精选AI研究论文及翻译

DropletVideo：探索时空一致性视频生成的数据集与方法
DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation

Mar 8

ByRunze Zhang, Guoguang Du, Xiaochuan Li, Qi Jia, Liang Jin, Lu Liu, Jingjing Wang, Cong Xu, Zhenhua Guo, Yaqian Zhao, Xiaoli Gong, Rengang Li, Baoyu Fan

138

Being-0：一款配备视觉语言模型与模块化技能的人形机器人代理
Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills

Mar 16

ByHaoqi Yuan, Yu Bai, Yuhui Fu, Bohan Zhou, Yicheng Feng, Xinrun Xu, Yi Zhan, Börje F. Karlsson, Zongqing Lu

免费使用扩散变换器实现万物个性化
Personalize Anything for Free with Diffusion Transformer

Mar 16

ByHaoran Feng, Zehuan Huang, Lin Li, Hairong Lv, Lu Sheng

SPIN-Bench：大语言模型在战略规划与社会推理方面的表现如何？
SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially?

Mar 16

ByJianzhu Yao, Kevin Wang, Ryan Hsieh, Haisu Zhou, Tianqing Zou, Zerui Cheng, Zhangyang Wang, Pramod Viswanath

DreamRenderer：驾驭大规模文本到图像模型中的多实例属性控制
DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models

Mar 17

ByDewei Zhou, Mingwei Li, Zongxin Yang, Yi Yang

多模态思维链推理：全面综述
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey

Mar 16

ByYaoting Wang, Shengqiong Wu, Yuecheng Zhang, William Wang, Ziwei Liu, Jiebo Luo, Hao Fei

R1-VL：通过逐步分组相对策略优化学习多模态大语言模型的推理能力
R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization

Mar 17

ByJingyi Zhang, Jiaxing Huang, Huanjin Yao, Shunyu Liu, Xikun Zhang, Shijian Lu, Dacheng Tao

编辑迁移：通过视觉上下文关系学习图像编辑
Edit Transfer: Learning Image Editing via Vision In-Context Relations

Mar 17

ByLan Chen, Qi Mao, Yuchao Gu, Mike Zheng Shou

BlobCtrl：一个统一且灵活的元素级图像生成与编辑框架
BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing

Mar 17

ByYaowei Li, Lingen Li, Zhaoyang Zhang, Xiaoyu Li, Guangzhi Wang, Hongxiang Li, Xiaodong Cun, Ying Shan, Yuexian Zou

MicroVQA：面向显微科学研究的跨模态推理基准
MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research

Mar 17

WideRange4D：实现大范围运动与场景的高质量四维重建
WideRange4D: Enabling High-Quality 4D Reconstruction with Wide-Range Movements and Scenes

Mar 17

ByLing Yang, Kaixin Zhu, Juanxi Tian, Bohan Zeng, Mingbao Lin, Hongjuan Pei, Wentao Zhang, Shuicheng Yan

reWordBench：通过输入变换评估并提升奖励模型的鲁棒性
reWordBench: Benchmarking and Improving the Robustness of Reward Models with Transformed Inputs

Mar 14

ByZhaofeng Wu, Michihiro Yasunaga, Andrew Cohen, Yoon Kim, Asli Celikyilmaz, Marjan Ghazvininejad

VideoMind：面向长视频推理的LoRA链式智能体
VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning

Mar 17

ByYe Liu, Kevin Qinghong Lin, Chang Wen Chen, Mike Zheng Shou

V-STaR：视频大语言模型在视频时空推理上的基准测试
V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning

Mar 14

ByZixu Cheng, Jian Hu, Ziquan Liu, Chenyang Si, Wei Li, Shaogang Gong

基于自由形式语言的机器人推理与抓取
Free-form language-based robotic reasoning and grasping

Mar 17

ByRunyu Jiao, Alice Fasoli, Francesco Giuliari, Matteo Bortolon, Sergio Povoli, Guofeng Mei, Yiming Wang, Fabio Poiesi

奖励机制足以实现快速逼真的文本到图像生成
Rewards Are Enough for Fast Photo-Realistic Text-to-image Generation

Mar 17

ByYihong Luo, Tianyang Hu, Weijian Luo, Kenji Kawaguchi, Jing Tang

MTV-Inpaint：多任务长视频修复
MTV-Inpaint: Multi-Task Long Video Inpainting

Mar 14

ByShiyuan Yang, Zheng Gu, Liang Hou, Xin Tao, Pengfei Wan, Xiaodong Chen, Jing Liao

基于多智能体协作的长视频音频合成
Long-Video Audio Synthesis with Multi-Agent Collaboration

Mar 13

ByYehang Zhang, Xinli Xu, Xiaojie Xu, Li Liu, Yingcong Chen

视觉计数：利用视力用户反馈构建面向视障人士的图表描述数据集
Sightation Counts: Leveraging Sighted User Feedback in Building a BLV-aligned Dataset of Diagram Descriptions

Mar 17

ByWan Ju Kang, Eunki Kim, Na Min An, Sangryul Kim, Haemin Choi, Ki Hoon Kwak, James Thorne