AI研究论文每日精选

每日精选AI研究论文及翻译

MergeVQ：基于解耦令牌合并与量化的视觉生成与表示统一框架
MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization

Apr 1

BySiyuan Li, Luyuan Zhang, Zedong Wang, Juanxi Tian, Cheng Tan, Zicheng Liu, Chang Yu, Qingsong Xie, Haonan Lu, Haoqian Wang, Zhen Lei

基于向量量化（VQ）的掩码图像建模（MIM）在自监督预训练和图像生成领域均取得了显著成功。然而，现有方法大多难以在共享潜在空间中平衡生成质量与表征学习及效率之间的关系。为突破这一范式的局限，我们提出了MergeVQ，该模型将令牌合并技术融入基于VQ的生成模型，旨在统一架构中弥合图像生成与视觉表征学习之间的鸿沟。在预训练阶段，MergeVQ通过编码器自注意力模块后的令牌合并模块，将top-k语义从潜在空间解耦，以便后续进行无查找量化（LFQ）和全局对齐，并在解码器中通过交叉注意力恢复其细粒度细节以完成重建。针对第二阶段的生成任务，我们引入了MergeAR，它执行KV缓存压缩以实现高效的光栅顺序预测。在ImageNet上的大量实验验证了MergeVQ作为自回归生成模型，在视觉表征学习和图像生成任务中均展现出竞争力，同时保持了良好的令牌效率和推理速度。代码和模型将在https://apexgen-x.github.io/MergeVQ 提供。

《AnimeGamer：无限动漫人生模拟》——搭载下一代游戏状态预测系统
AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction

Apr 1

ByJunhao Cheng, Yuying Ge, Yixiao Ge, Jing Liao, Ying Shan

近期，图像与视频合成技术的进步为生成式游戏开辟了新的前景。其中，将动漫电影中的角色转化为可互动的可玩实体尤为引人注目。这一应用让玩家能够以自己喜爱的角色身份，通过语言指令沉浸于动态的动漫世界，体验生活模拟。这类游戏被定义为无限游戏，因为它们打破了预设的边界和固定的游戏规则，玩家可以通过开放式的语言与游戏世界互动，体验不断演变的故事线和环境。最近，一种开创性的无限动漫生活模拟方法利用大型语言模型（LLMs）将多轮文本对话转化为图像生成的语言指令。然而，该方法忽视了历史视觉上下文，导致游戏体验不一致。此外，它仅生成静态图像，未能融入提升游戏沉浸感所需的动态元素。在本研究中，我们提出了AnimeGamer，它基于多模态大型语言模型（MLLMs）生成每一游戏状态，包括描绘角色动作的动态动画片段及角色状态的更新，如图1所示。我们引入了新颖的动作感知多模态表示法来呈现动画片段，这些表示可通过视频扩散模型解码为高质量视频片段。通过将历史动画片段表示作为上下文并预测后续表示，AnimeGamer能够生成具有上下文一致性和满意动态效果的游戏。通过自动化指标和人工评估的广泛测试表明，AnimeGamer在游戏体验的多个方面均优于现有方法。代码和检查点可在https://github.com/TencentARC/AnimeGamer获取。

DreamActor-M1：基于混合引导的全方位、富有表现力且鲁棒的人体图像动画生成
DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance

Apr 2

ByYuxuan Luo, Zhengkun Rong, Lizhen Wang, Longhao Zhang, Tianshu Hu, Yongming Zhu

尽管近期基于图像的人体动画方法已能实现逼真的身体与面部运动合成，但在细粒度整体可控性、多尺度适应性以及长期时间连贯性方面仍存在显著不足，这导致其表现力与鲁棒性较低。为此，我们提出了一个基于扩散变换器（DiT）的框架——DreamActor-M1，通过混合指导机制来克服这些局限。在运动指导方面，我们融合了隐式面部表征、3D头部球体及3D身体骨架的混合控制信号，实现了对面部表情与身体动作的稳健控制，同时生成富有表现力且保持身份特征的动画。针对尺度适应，为应对从肖像到全身视图等多种身体姿态与图像尺度，我们采用了基于不同分辨率与尺度数据的渐进式训练策略。在外观指导上，我们将序列帧中的运动模式与补充视觉参考相结合，确保在复杂运动中不可见区域的长期时间连贯性。实验表明，我们的方法超越了现有最先进技术，在肖像、上半身及全身生成方面均展现出卓越的表现力，并具备稳健的长期一致性。项目页面：https://grisoon.github.io/DreamActor-M1/。

通过R1-Zero式训练提升视觉空间推理能力
Improved Visual-Spatial Reasoning via R1-Zero-Like Training

Apr 1

ByZhenyi Liao, Qingsong Xie, Yanhao Zhang, Zijian Kong, Haonan Lu, Zhenyu Yang, Zhijie Deng

提升多模态大语言模型（MLLMs）的推理能力正受到越来越多的关注。作为在物理世界中运作的AI智能体的基石，基于视频的视觉空间智能（VSI）成为了MLLMs最为关键的推理能力之一。本研究首次深入探讨了通过类似R1-Zero的训练方法来增强MLLMs的视觉空间推理能力。技术上，我们首先发现，中小规模的Qwen2-VL模型无法通过思维链（CoT）提示激活其视觉空间推理能力。随后，我们借鉴DeepSeek-R1-Zero，采用精心策划的VSI-100k数据集，引入了GRPO训练以提升视觉空间推理。在研究中，我们认识到即使在GRPO中保持KL惩罚（即使数值较小）也是必要的。仅用120 GPU小时，我们基于Qwen2-VL-2B微调的vsGRPO-2B模型，其性能就超越了基础模型12.1%，并超过了GPT-4o。此外，基于Qwen2-VL-7B微调的vsGRPO-7B模型，其表现可与最佳开源模型LLaVA-NeXT-Video-72B相媲美。同时，我们将vsGRPO与监督微调和直接偏好优化基线进行了对比，观察到显著的性能优势。代码和数据集即将公开。

理解R1-Zero式训练：一个批判性视角
Understanding R1-Zero-Like Training: A Critical Perspective

Mar 26

ByZichen Liu, Changyu Chen, Wenjun Li, Penghui Qi, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin

DeepSeek-R1-Zero 研究表明，大规模强化学习（RL）无需监督微调即可直接提升大语言模型（LLMs）的推理能力。在本研究中，我们通过剖析其两大核心要素——基础模型与强化学习，对 R1-Zero 类训练方法进行了深入探讨。我们考察了包括 DeepSeek-V3-Base 在内的多种基础模型，以探究预训练特性如何影响 RL 表现。分析发现，DeepSeek-V3-Base 已展现出“顿悟时刻”，而 Qwen2.5 基础模型即便无需提示模板也展现出强大的推理能力，暗示了潜在的预训练偏差。此外，我们识别出组相对策略优化（GRPO）中的优化偏差，该偏差在训练过程中人为增加了响应长度（尤其是错误输出）。为此，我们提出了 Dr. GRPO，一种无偏优化方法，在保持推理性能的同时提升了令牌效率。基于这些洞见，我们提出了一种极简版 R1-Zero 方案，使用 7B 基础模型在 AIME 2024 上取得了 43.3% 的准确率，创下了新的技术标杆。我们的代码已发布于 https://github.com/sail-sg/understand-r1-zero。

ScholarCopilot：训练大型语言模型实现精准引用的学术写作
ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations

Apr 1

ByYubo Wang, Xueguang Ma, Ping Nie, Huaye Zeng, Zhiheng Lyu, Yuxuan Zhang, Benjamin Schneider, Yi Lu, Xiang Yue, Wenhu Chen

学术写作既需要连贯的文本生成，也要求对相关文献进行精准引用。尽管近期的检索增强生成（RAG）系统在通用文本生成的事实准确性上取得了显著提升，但其在支持专业学术写作方面的能力仍显不足。本研究中，我们提出了ScholarCopilot，一个旨在增强现有大语言模型以生成带有准确且上下文相关引用的专业学术文章的统一框架。ScholarCopilot通过生成检索标记[RET]动态决定何时检索学术参考文献，并利用其表示从数据库中查找相关引用。检索到的参考文献被输入模型以增强生成过程。我们在单一框架内联合优化生成与引用任务，以提高效率。基于arXiv上50万篇论文训练，我们的模型在评估数据集上实现了40.1%的Top-1检索准确率，超越了如E5-Mistral-7B-Instruct（15.0%）和BM25（9.8%）等基线模型。在1000份学术写作样本的数据集上，ScholarCopilot在生成质量（涵盖相关性、连贯性、学术严谨性、完整性和创新性）上获得16.2/25分，优于参数规模大10倍的模型如Qwen-2.5-72B-Instruct（15.8/25）。人类研究也证实了ScholarCopilot在引用召回率、写作效率及整体用户体验上的卓越表现，验证了我们方法的有效性。

VideoScene：一步生成3D场景的视频扩散模型蒸馏技术
VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step

Apr 2

ByHanyang Wang, Fangfu Liu, Jiawei Chi, Yueqi Duan

从稀疏视角中恢复三维场景是一项极具挑战性的任务，因其本质上是一个不适定问题。传统方法已开发出专门解决方案（如几何正则化或前馈确定性模型）以缓解此问题。然而，当输入视角间重叠极少且视觉信息不足时，这些方法仍面临性能下降的困境。幸运的是，近期视频生成模型展现出解决这一挑战的潜力，它们能够生成具有合理三维结构的视频片段。借助大规模预训练视频扩散模型，一些前沿研究开始探索视频生成先验的潜力，并尝试从稀疏视角创建三维场景。尽管取得了显著改进，但这些方法受限于推理速度慢及缺乏三维约束，导致效率低下并产生与真实世界几何结构不符的重建伪影。本文提出VideoScene，通过蒸馏视频扩散模型一步生成三维场景，旨在构建一个高效且有效的工具，弥合视频到三维的鸿沟。具体而言，我们设计了一种三维感知的跳跃流蒸馏策略，以跳过耗时的冗余信息，并训练了一个动态去噪策略网络，在推理过程中自适应地确定最佳跳跃时间步。大量实验表明，我们的VideoScene在三维场景生成上比以往的视频扩散模型更快且效果更优，凸显了其作为未来视频到三维应用高效工具的潜力。项目页面：https://hanyang-21.github.io/VideoScene

迈向基于视觉语言模型规划的物理可信视频生成
Towards Physically Plausible Video Generation via VLM Planning

Mar 30

ByXindi Yang, Baolu Li, Yiming Zhang, Zhenfei Yin, Lei Bai, Liqian Ma, Zhiyong Wang, Jianfei Cai, Tien-Tsin Wong, Huchuan Lu, Xu Jia

近年来，视频扩散模型（VDMs）取得了显著进展，能够生成高度逼真的视频，并因其作为世界模拟器的潜力而受到广泛关注。然而，尽管VDMs具备强大的生成能力，但由于其内在缺乏对物理规律的理解，往往无法生成物理上合理的视频，导致动态和事件序列出现错误。为解决这一局限，我们提出了一种新颖的两阶段图像到视频生成框架，该框架显式地融入了物理知识。在第一阶段，我们采用视觉语言模型（VLM）作为粗粒度运动规划器，结合思维链和物理感知推理，预测近似真实世界物理动态的粗略运动轨迹/变化，同时确保帧间一致性。在第二阶段，我们利用预测的运动轨迹/变化来指导VDM的视频生成。由于预测的运动轨迹/变化较为粗略，在推理过程中会添加噪声，为VDM在生成更精细运动细节时提供自由度。大量实验结果表明，我们的框架能够生成物理上合理的运动，对比评估也凸显了我们的方法相较于现有技术的显著优势。更多视频结果请访问我们的项目页面：https://madaoer.github.io/projects/physically_plausible_video_generation。

PaperBench：评估AI复制AI研究的能力
PaperBench: Evaluating AI's Ability to Replicate AI Research

Apr 2

ByGiulio Starace, Oliver Jaffe, Dane Sherburn, James Aung, Jun Shern Chan, Leon Maksin, Rachel Dias, Evan Mays, Benjamin Kinsella, Wyatt Thompson, Johannes Heidecke, Amelia Glaese, Tejal Patwardhan

我们推出PaperBench，这是一个评估AI代理复制最前沿AI研究能力的基准测试。代理需从零开始复制20篇ICML 2024 Spotlight和Oral论文，包括理解论文贡献、开发代码库以及成功执行实验。为了客观评估，我们制定了评分标准，将每项复制任务层次化分解为具有明确评分细则的子任务。PaperBench总计包含8,316个可独立评分的任务。这些评分标准与每篇ICML论文的作者共同开发，以确保准确性和真实性。为实现可扩展的评估，我们还开发了一个基于LLM的评判器，用于自动根据评分标准对复制尝试进行评分，并通过创建一个独立的评判基准来评估该评判器的性能。我们在PaperBench上测试了多个前沿模型，发现表现最佳的测试代理——配备开源框架的Claude 3.5 Sonnet（新版）——平均复制得分为21.0%。最后，我们邀请顶尖机器学习博士生尝试PaperBench的一部分任务，发现模型尚未超越人类基准。我们已将代码开源至https://github.com/openai/preparedness，以促进未来在理解AI代理工程能力方面的研究。

从视频扩散模型中提取关节运动学信息
Articulated Kinematics Distillation from Video Diffusion Models

Apr 1

ByXuan Li, Qianli Ma, Tsung-Yi Lin, Yongxin Chen, Chenfanfu Jiang, Ming-Yu Liu, Donglai Xiang

我们提出了关节运动蒸馏（Articulated Kinematics Distillation, AKD）框架，该框架通过融合基于骨骼的动画与现代生成模型的优势，来生成高保真角色动画。AKD采用基于骨骼的表示方法处理装配好的3D资产，通过聚焦于关节层面的控制，显著降低了自由度（Degrees of Freedom, DoFs），从而实现高效、一致的运动合成。借助预训练视频扩散模型的分数蒸馏采样（Score Distillation Sampling, SDS），AKD在保持结构完整性的同时，蒸馏出复杂的关节运动，克服了4D神经变形场在维持形状一致性方面面临的挑战。此方法天然兼容基于物理的模拟，确保了物理上可信的交互。实验表明，在文本到4D生成任务上，AKD相较于现有工作，实现了更优的3D一致性与运动质量。项目页面：https://research.nvidia.com/labs/dir/akd/

ILLUME+：通过双重视觉标记化与扩散优化实现统一多模态大模型的精进
ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement

Apr 2

ByRunhui Huang, Chunwei Wang, Junwei Yang, Guansong Lu, Yunlong Yuan, Jianhua Han, Lu Hou, Wei Zhang, Lanqing Hong, Hengshuang Zhao, Hang Xu

我们推出了ILLUME+，它通过双重视觉标记化和扩散解码器，提升了深度语义理解与高保真图像生成的能力。现有统一模型在同时处理理解、生成和编辑这三大基础能力时面临挑战。诸如Chameleon和EMU3等模型采用VQGAN进行图像离散化，但由于缺乏深度语义交互，在视觉理解任务上落后于LLaVA等专业模型。为解决此问题，LaViT和ILLUME引入了语义编码器进行标记化，但在图像编辑上因纹理保留不佳而受限。同时，Janus系列解耦了输入与输出图像表示，限制了其无缝处理交错图文理解与生成的能力。相比之下，ILLUME+创新性地引入了统一的双重视觉标记器DualViTok，它既保留了细粒度纹理又对齐了文本语义，并支持从粗到细的图像表示策略，以促进多模态理解与生成。此外，我们采用扩散模型作为图像解码器，以提升生成质量并实现高效超分辨率。ILLUME+在统一的多模态大语言模型（MLLM）中遵循连续输入、离散输出的方案，并采用渐进式训练流程，支持视觉标记器、MLLM及扩散解码器间的动态分辨率调整。这一设计使得ILLUME+能够在多样化任务中灵活高效地进行上下文感知的图像编辑与生成。ILLUME+（3B）在多模态理解、生成及编辑基准测试中，展现出与现有统一MLLMs及专业模型相媲美的性能。凭借其卓越表现，ILLUME+为未来多模态应用提供了可扩展且多功能的基础。项目页面：https://illume-unified-mllm.github.io/。

通过AI反馈的直接偏好优化，提升您的人类图像生成模型
Boost Your Own Human Image Generation Model via Direct Preference Optimization with AI Feedback

May 30

BySanghyeon Na, Yonggyu Kim, Hyunjoon Lee

通过文本到图像（T2I）方法生成高质量的人类图像是一项重要且具有挑战性的任务。与一般的图像生成不同，人类图像合成必须满足与人体姿态、解剖结构以及与文本提示对齐相关的严格标准，这使得实现逼真效果尤为困难。基于扩散模型的T2I生成技术近期取得了进展，但在满足人类特定偏好方面仍存在挑战。本文提出了一种专门针对人类图像生成的新方法，利用直接偏好优化（DPO）。具体而言，我们引入了一种高效的方法，用于构建专门的DPO数据集以训练人类图像生成模型，而无需昂贵的人工反馈。我们还提出了一种改进的损失函数，通过减少伪影并提高图像保真度来增强DPO训练过程。我们的方法展示了其在生成人类图像方面的多功能性和有效性，包括个性化的文本到图像生成。通过全面评估，我们表明该方法显著推进了人类图像生成的技术水平，在自然解剖结构、姿态以及文本图像对齐方面取得了优异成果。

MegaTTS 3：稀疏对齐增强的潜在扩散Transformer，用于零样本语音合成
MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis

Feb 26

ByZiyue Jiang, Yi Ren, Ruiqi Li, Shengpeng Ji, Boyang Zhang, Zhenhui Ye, Chen Zhang, Bai Jionghao, Xiaoda Yang, Jialong Zuo, Yu Zhang, Rui Liu, Xiang Yin, Zhou Zhao

尽管近期的零样本文本转语音（TTS）模型在语音质量和表现力上取得了显著提升，主流系统仍面临语音-文本对齐建模相关的问题：1）缺乏显式语音-文本对齐建模的模型在实用性上表现欠佳，尤其是在处理实际应用中的复杂句子时；2）基于预定义对齐的模型受限于强制对齐的自然性约束。本文介绍MegaTTS 3，一款采用创新稀疏对齐算法引导潜在扩散变换器（DiT）的TTS系统。具体而言，我们为MegaTTS 3提供稀疏对齐边界，以降低对齐难度而不限制搜索空间，从而实现高自然度。此外，我们采用多条件无分类器引导策略进行口音强度调节，并应用分段整流流技术加速生成过程。实验表明，MegaTTS 3在零样本TTS语音质量上达到业界领先水平，并支持高度灵活的口音强度控制。值得注意的是，我们的系统仅需8次采样步骤即可生成高质量的一分钟语音。音频样本可在https://sditdemo.github.io/sditdemo/获取。

保障视觉-语言模型安全：降低基于扰动攻击中高斯噪声的脆弱性
Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks

Apr 2

ByJiawei Wang, Yushen Zuo, Yuanjun Chai, Zhendong Liu, Yichen Fu, Yichun Feng, Kin-man Lam

视觉-语言模型（VLMs）通过整合视觉信息扩展了大型语言模型（LLMs）的能力，但在处理噪声或损坏图像时，仍易受越狱攻击的影响。尽管现有VLMs在训练中采取了安全措施以减轻此类攻击，但与噪声增强视觉输入相关的漏洞却被忽视。本研究中，我们发现缺乏噪声增强训练导致了关键的安全漏洞：许多VLMs甚至对如高斯噪声这样的简单扰动也显得脆弱。为应对这一挑战，我们提出了Robust-VLGuard，一个包含对齐/未对齐图文对的多模态安全数据集，结合噪声增强微调，在保持VLM功能的同时降低了攻击成功率。针对更强的基于优化的视觉扰动攻击，我们提出了DiffPure-VLM，利用扩散模型将对抗性扰动转化为类似高斯噪声的形式，这种噪声可通过噪声增强安全微调的VLMs进行防御。实验结果表明，扩散模型的分布转移特性与我们微调后的VLMs高度契合，显著缓解了不同强度的对抗性扰动。数据集和代码可在https://github.com/JarvisUSTC/DiffPure-RobustVLM获取。

DASH：视觉语言模型系统性幻觉的检测与评估
DASH: Detection and Assessment of Systematic Hallucinations of VLMs

Mar 30

ByMaximilian Augustin, Yannic Neuhaus, Matthias Hein

视觉语言模型（VLMs）易产生物体幻觉，即在图像中错误地指示某些物体的存在。现有基准通过相对较小的标注数据集来量化这种幻觉。然而，这种方法存在两个不足：其一，在VLMs广泛应用的开放世界场景中，难以全面评估幻觉现象；其二，无法有效检测VLMs中的系统性错误。为此，我们提出了DASH（系统性幻觉检测与评估），这是一个自动化、大规模的处理流程，旨在开放世界环境下识别VLMs在真实图像上的系统性幻觉。其核心组件DASH-OPT用于基于图像的检索，我们通过优化“自然图像流形”来生成误导VLM的图像。DASH的输出包含一系列真实且语义相似的图像簇，这些图像簇中VLM均产生了物体幻觉。我们将DASH应用于PaliGemma及两个LLaVA-NeXT模型，覆盖380个物体类别，共发现超过19,000个图像簇，涉及950,000张图像。我们研究了这些识别出的系统性幻觉在其他VLMs中的迁移性，并证明使用DASH获取的模型特定图像对PaliGemma进行微调，可有效缓解物体幻觉问题。代码与数据已公开于https://YanNeu.github.io/DASH。

LSNet：观全局，察细微
LSNet: See Large, Focus Small

Mar 29

ByAo Wang, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding

视觉网络设计，包括卷积神经网络和视觉Transformer，已显著推动了计算机视觉领域的发展。然而，其复杂的计算为实际部署，尤其是在实时应用中，带来了挑战。为解决这一问题，研究者们探索了多种轻量级且高效的网络设计方案。但现有的轻量模型主要依赖自注意力机制和卷积进行令牌混合，这种依赖在轻量网络的感知与聚合过程中限制了其效果与效率，难以在有限计算预算下平衡性能与效率。本文从人类视觉系统固有的动态多尺度视觉能力中汲取灵感，提出了一种“见大聚焦小”的轻量视觉网络设计策略。我们引入了LS（大-小）卷积，它结合了大核感知与小核聚合，能高效捕捉广泛的感知信息并实现动态复杂视觉表征的精确特征聚合，从而熟练处理视觉信息。基于LS卷积，我们提出了LSNet，一个全新的轻量模型家族。大量实验表明，LSNet在多种视觉任务中均超越了现有轻量网络，展现出卓越的性能与效率。代码与模型已发布于https://github.com/jameslahm/lsnet。

Quamba2：面向选择性状态空间模型的鲁棒可扩展训练后量化框架
Quamba2: A Robust and Scalable Post-training Quantization Framework for Selective State Space Models

Mar 28

ByHung-Yueh Chiang, Chi-Chih Chang, Natalia Frumkin, Kai-Chiang Wu, Mohamed S. Abdelfattah, Diana Marculescu

状态空间模型（SSMs）因其稳定的内存占用和卓越性能，正逐渐成为Transformer的有力替代方案。然而，在云服务或资源受限设备上扩展SSMs面临存储需求和计算能力的挑战。为此，采用低位宽数据格式对SSMs进行量化，不仅能缩减模型规模，还能充分利用硬件加速优势。鉴于SSMs易受量化误差影响，近期研究致力于在不牺牲性能的前提下，针对特定模型或位宽进行优化。然而，不同场景需适配不同的位宽配置，如W4A8用于提升大批量解码速度，而W4A16则优化单用户短提示应用中的生成速度。为此，我们推出Quamba2，兼容W8A8、W4A8和W4A16，适用于Mamba1和Mamba2架构，满足SSM多样化部署需求。基于SSM的通道顺序保持和激活持续性特性，我们提出一种离线方法，通过对输入x进行排序和聚类，以8位量化线性递归的输入，并结合针对输入依赖参数B和C的逐状态组量化。为确保SSM输出的计算不变性，我们依据聚类序列离线重排权重。实验表明，Quamba2-8B在多项SSM量化方法中表现优异，预填充和生成阶段分别实现1.3倍和3倍加速，同时内存减少4倍，平均精度仅下降1.6%。MMLU评估验证了框架的通用性和鲁棒性。代码及量化模型将发布于：https://github.com/enyac-group/Quamba。

VerifiAgent：语言模型推理中的统一验证代理
VerifiAgent: a Unified Verification Agent in Language Model Reasoning

Apr 1

ByJiuzhou Han, Wray Buntine, Ehsan Shareghi

大型语言模型展现出卓越的推理能力，但往往会产生不可靠或错误的回答。现有的验证方法通常局限于特定模型或领域，需要大量计算资源，且难以跨多种推理任务扩展。为解决这些局限，我们提出了VerifiAgent，一个统一的验证代理，它整合了两层验证机制：元验证，用于评估模型回答的完整性与一致性；以及基于工具的自适应验证，VerifiAgent能根据推理类型（如数学、逻辑或常识推理）自主选择合适的验证工具。这种自适应方法确保了不同验证场景下的效率与鲁棒性。实验结果表明，VerifiAgent在所有推理任务中均优于基线验证方法（如演绎验证器、逆向验证器）。此外，通过利用验证结果的反馈，它能进一步提升推理准确性。VerifiAgent还能有效应用于推理扩展，在数学推理领域，相较于现有的过程奖励模型，它以更少的生成样本和成本实现了更优的结果。代码已发布于https://github.com/Jiuzhouh/VerifiAgent。

预训练大语言模型中的自适应层跳跃机制
Adaptive Layer-skipping in Pre-trained LLMs

Mar 31

ByXuan Luo, Weizhi Wang, Xifeng Yan

为加速大型语言模型（LLMs）中的令牌生成，多种层跳过方法已被提出。然而，这些方法忽视了一个根本性问题：在生成不同令牌时，计算需求如何变化？本研究中，我们引入了FlexiDepth，一种动态调整Transformer层数以进行文本生成的方法。通过集成插件路由器和适配器，FlexiDepth实现了LLMs中的自适应层跳过，而无需修改其原始参数。将FlexiDepth应用于Llama-3-8B模型，成功跳过了32层中的8层，同时保持了100%的基准性能。FlexiDepth的实验结果表明，LLMs中的计算需求根据令牌类型显著变化。具体而言，生成重复令牌或固定短语所需的层数较少，而涉及计算或高不确定性的令牌生成则需要更多层。有趣的是，这种自适应分配模式与人类直觉相吻合。为推动该领域研究，我们开源了FlexiDepth及记录其层分配模式的数据集，以供未来探索。

目标感知视频扩散模型
Target-Aware Video Diffusion Models

Mar 24

ByTaeksoo Kim, Hanbyul Joo

我们提出了一种目标感知的视频扩散模型，该模型能够从输入图像生成视频，其中演员在执行期望动作的同时与指定目标进行交互。目标通过分割掩码定义，而期望动作则通过文本提示描述。与现有的可控图像到视频扩散模型不同，后者通常依赖密集的结构或运动线索来引导演员向目标移动，我们的目标感知模型仅需一个简单的掩码来指示目标，利用预训练模型的泛化能力生成合理的动作。这使得我们的方法在人物-物体交互（HOI）场景中尤为有效，因为在这些场景中提供精确的动作指导具有挑战性，并进一步推动了视频扩散模型在机器人等高层次动作规划应用中的使用。我们通过扩展基线模型，将目标掩码作为额外输入，构建了目标感知模型。为了增强目标感知能力，我们引入了一个特殊标记，该标记在文本提示中编码目标的空间信息。随后，我们使用一种新颖的交叉注意力损失对模型进行微调，该损失将与该标记相关的交叉注意力图与输入目标掩码对齐。为了进一步提升性能，我们选择性地将此损失应用于最具语义相关性的Transformer块和注意力区域。实验结果表明，我们的目标感知模型在生成演员与指定目标准确交互的视频方面优于现有解决方案。我们进一步展示了其在两个下游应用中的有效性：视频内容创作和零样本3D HOI运动合成。

通过多模态表征的跨模态对齐增强异常检测
Enhanced OoD Detection through Cross-Modal Alignment of Multi-Modal Representations

Mar 24

ByJeonghyeon Kim, Sangheum Hwang

先前关于分布外检测（OoDD）的研究主要集中在单模态模型上。近年来，随着大规模预训练视觉-语言模型（如CLIP）的出现，利用此类多模态表示通过零样本学习和提示学习策略的OoDD方法应运而生。然而，这些方法通常要么冻结预训练权重，要么仅对其进行部分微调，这对于下游数据集可能并非最优选择。本文强调，多模态微调（MMFT）能够实现显著的OoDD性能。尽管最近的一些工作展示了微调方法对OoDD的影响，但性能提升仍有巨大潜力。我们探讨了简单微调方法的局限性，分析其为何未能充分利用预训练知识。我们的实证分析表明，这一问题可能源于分布内（ID）嵌入中的模态差距。为解决此问题，我们提出了一种训练目标，通过正则化ID数据的图像与文本嵌入之间的距离来增强跨模态对齐。这一调整有助于更好地利用预训练的文本信息，通过在超球面表示空间中更紧密地对齐来自不同模态（即文本和图像）的相似语义。我们从理论上证明，所提出的正则化对应于超球面上基于能量模型的最大似然估计。利用ImageNet-1k OoD基准数据集，我们展示了我们的方法结合利用预训练知识的后处理OoDD方法（如NegLabel），显著超越了现有方法，实现了最先进的OoDD性能，并引领了ID准确率。

医疗大语言模型容易受到干扰。
Medical large language models are easily distracted

Apr 1

ByKrithik Vishwanath, Anton Alyakin, Daniel Alexander Alber, Jin Vivian Lee, Douglas Kondziolka, Eric Karl Oermann

大型语言模型（LLMs）具有变革医疗领域的潜力，但现实世界的临床场景中往往包含可能影响其性能的无关信息。随着辅助技术的兴起，如环境听写——它能从实时患者互动中自动生成草稿记录——可能会引入额外的噪音，这使得评估LLMs过滤相关数据的能力变得至关重要。为探究此问题，我们开发了MedDistractQA，一个利用嵌入模拟现实世界干扰的USMLE风格问题作为基准的测试平台。我们的研究发现，干扰性陈述（即在非临床语境下使用具有临床意义的多义词或提及无关健康状态）可使LLM的准确率降低高达17.9%。常被提议用于提升模型性能的解决方案，如检索增强生成（RAG）和医学微调，并未改变这一影响，在某些情况下反而引入了新的混淆因素，进一步降低了性能。我们的研究结果表明，LLMs天生缺乏区分相关与无关临床信息所需的逻辑机制，这为其在现实世界中的应用带来了挑战。MedDistractQA及我们的研究成果强调了制定强有力的缓解策略的必要性，以增强LLMs对无关信息的抵御能力。

AI研究论文每日精选

每日精选AI研究论文及翻译

MergeVQ：基于解耦令牌合并与量化的视觉生成与表示统一框架
MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization

Apr 1

BySiyuan Li, Luyuan Zhang, Zedong Wang, Juanxi Tian, Cheng Tan, Zicheng Liu, Chang Yu, Qingsong Xie, Haonan Lu, Haoqian Wang, Zhen Lei

《AnimeGamer：无限动漫人生模拟》——搭载下一代游戏状态预测系统
AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction

Apr 1

ByJunhao Cheng, Yuying Ge, Yixiao Ge, Jing Liao, Ying Shan

DreamActor-M1：基于混合引导的全方位、富有表现力且鲁棒的人体图像动画生成
DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance

Apr 2

ByYuxuan Luo, Zhengkun Rong, Lizhen Wang, Longhao Zhang, Tianshu Hu, Yongming Zhu

通过R1-Zero式训练提升视觉空间推理能力
Improved Visual-Spatial Reasoning via R1-Zero-Like Training

Apr 1

ByZhenyi Liao, Qingsong Xie, Yanhao Zhang, Zijian Kong, Haonan Lu, Zhenyu Yang, Zhijie Deng

理解R1-Zero式训练：一个批判性视角
Understanding R1-Zero-Like Training: A Critical Perspective

Mar 26

ByZichen Liu, Changyu Chen, Wenjun Li, Penghui Qi, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin

ScholarCopilot：训练大型语言模型实现精准引用的学术写作
ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations

Apr 1

ByYubo Wang, Xueguang Ma, Ping Nie, Huaye Zeng, Zhiheng Lyu, Yuxuan Zhang, Benjamin Schneider, Yi Lu, Xiang Yue, Wenhu Chen

VideoScene：一步生成3D场景的视频扩散模型蒸馏技术
VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step

Apr 2

ByHanyang Wang, Fangfu Liu, Jiawei Chi, Yueqi Duan

迈向基于视觉语言模型规划的物理可信视频生成
Towards Physically Plausible Video Generation via VLM Planning

Mar 30

ByXindi Yang, Baolu Li, Yiming Zhang, Zhenfei Yin, Lei Bai, Liqian Ma, Zhiyong Wang, Jianfei Cai, Tien-Tsin Wong, Huchuan Lu, Xu Jia

PaperBench：评估AI复制AI研究的能力
PaperBench: Evaluating AI's Ability to Replicate AI Research

Apr 2

ByGiulio Starace, Oliver Jaffe, Dane Sherburn, James Aung, Jun Shern Chan, Leon Maksin, Rachel Dias, Evan Mays, Benjamin Kinsella, Wyatt Thompson, Johannes Heidecke, Amelia Glaese, Tejal Patwardhan

从视频扩散模型中提取关节运动学信息
Articulated Kinematics Distillation from Video Diffusion Models

Apr 1

ByXuan Li, Qianli Ma, Tsung-Yi Lin, Yongxin Chen, Chenfanfu Jiang, Ming-Yu Liu, Donglai Xiang

ILLUME+：通过双重视觉标记化与扩散优化实现统一多模态大模型的精进
ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement

Apr 2

ByRunhui Huang, Chunwei Wang, Junwei Yang, Guansong Lu, Yunlong Yuan, Jianhua Han, Lu Hou, Wei Zhang, Lanqing Hong, Hengshuang Zhao, Hang Xu

通过AI反馈的直接偏好优化，提升您的人类图像生成模型
Boost Your Own Human Image Generation Model via Direct Preference Optimization with AI Feedback

May 30

BySanghyeon Na, Yonggyu Kim, Hyunjoon Lee

MegaTTS 3：稀疏对齐增强的潜在扩散Transformer，用于零样本语音合成
MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis

Feb 26

ByZiyue Jiang, Yi Ren, Ruiqi Li, Shengpeng Ji, Boyang Zhang, Zhenhui Ye, Chen Zhang, Bai Jionghao, Xiaoda Yang, Jialong Zuo, Yu Zhang, Rui Liu, Xiang Yin, Zhou Zhao

保障视觉-语言模型安全：降低基于扰动攻击中高斯噪声的脆弱性
Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks

Apr 2

ByJiawei Wang, Yushen Zuo, Yuanjun Chai, Zhendong Liu, Yichen Fu, Yichun Feng, Kin-man Lam

DASH：视觉语言模型系统性幻觉的检测与评估
DASH: Detection and Assessment of Systematic Hallucinations of VLMs

Mar 30

ByMaximilian Augustin, Yannic Neuhaus, Matthias Hein

LSNet：观全局，察细微
LSNet: See Large, Focus Small

Mar 29

ByAo Wang, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding

Quamba2：面向选择性状态空间模型的鲁棒可扩展训练后量化框架
Quamba2: A Robust and Scalable Post-training Quantization Framework for Selective State Space Models

Mar 28

ByHung-Yueh Chiang, Chi-Chih Chang, Natalia Frumkin, Kai-Chiang Wu, Mohamed S. Abdelfattah, Diana Marculescu