AI研究论文每日精选

每日精选AI研究论文及翻译

Loopy: 通过长期运动依赖关系驯服音频驱动的肖像化头像
Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency

Sep 4

ByJianwen Jiang, Chao Liang, Jiaqi Yang, Gaojie Lin, Tianyun Zhong, Yanbo Zheng

随着基于扩散的视频生成技术的引入，最近音频条件下的人类视频生成在运动自然性和肖像细节合成方面取得了重大突破。由于在驱动人类运动中音频信号的控制受限，现有方法通常会添加辅助空间信号来稳定运动，这可能会影响运动的自然性和自由度。在本文中，我们提出了一种名为Loopy的端到端仅音频条件视频扩散模型。具体来说，我们设计了一个片内和片间时间模块以及一个音频到潜变量模块，使模型能够利用数据中的长期运动信息来学习自然运动模式，并改善音频-肖像运动相关性。这种方法消除了现有方法中用于在推断过程中约束运动的手动指定空间运动模板的需求。大量实验证明，Loopy优于最近的音频驱动肖像扩散模型，在各种场景中提供更逼真和高质量的结果。

LongLLaVA：通过混合架构高效扩展多模式LLM到1000张图片
LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture

Sep 4

ByXidong Wang, Dingjie Song, Shunian Chen, Chen Zhang, Benyou Wang

扩展多模态大型语言模型（MLLMs）的长上下文能力对于视频理解、高分辨率图像理解和多模态代理至关重要。这涉及一系列系统优化，包括模型架构、数据构建和训练策略，特别是解决诸如随着图像增多而性能下降和高计算成本等挑战。本文将模型架构调整为Mamba和Transformer块的混合体，采用同时考虑多个图像之间的时间和空间依赖性的数据构建方法，并采用渐进式训练策略。发布的模型LongLLaVA（长上下文大型语言与视觉助手）是第一个混合MLLM，实现了效率和有效性之间更好的平衡。LongLLaVA不仅在各种基准测试中取得了竞争力的结果，而且保持了高吞吐量和低内存消耗。特别是，它可以在单个A100 80GB GPU上处理近千张图像，展现了广泛任务的应用前景。

LongCite：使LLMs能够在长文本问答中生成细粒度引文
LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA

Sep 4

Byjiajie Zhang, Yushi Bai, Xin Lv, Wanjun Gu, Danqing Liu, Minhao Zou, Shulin Cao, Lei Hou, Yuxiao Dong, Ling Feng, Juanzi Li

尽管当前的长文本大型语言模型（LLMs）在基于广泛文本回答用户问题方面展示出令人印象深刻的能力，但其回应缺乏引用使得用户验证变得困难，引发了对其可信度的担忧，因为其潜在的幻觉。在这项工作中，我们旨在使长文本LLMs能够生成带有细粒度句级引用的回应，提高其忠实度和可验证性。我们首先介绍了LongBench-Cite，这是一个用于评估当前LLMs在带引用的长文本问答（LQAC）中表现的自动化基准，揭示了改进的重要空间。为此，我们提出了CoF（Coarse to Fine），这是一个利用现成LLMs自动生成带有精确句级引用的长文本问答实例的新型流程，并利用该流程构建了LongCite-45k，一个用于LQAC的大规模SFT数据集。最后，我们使用LongCite-45k数据集训练了LongCite-8B和LongCite-9B，成功使它们在单个输出中生成准确的回应和细粒度句级引用。在LongBench-Cite上的评估结果显示，我们训练的模型实现了最先进的引用质量，超越了包括GPT-4o在内的先进专有模型。

MMMU-Pro：一个更强大的多学科多模态理解基准。
MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark

Sep 4

ByXiang Yue, Tianyu Zheng, Yuansheng Ni, Yubo Wang, Kai Zhang, Shengbang Tong, Yuxuan Sun, Ming Yin, Botao Yu, Ge Zhang, Huan Sun, Yu Su, Wenhu Chen, Graham Neubig

本文介绍了MMMU-Pro，是Massive Multi-discipline Multimodal Understanding and Reasoning（MMMU）基准测试的一个强大版本。MMMU-Pro通过基于MMMU的三步过程严格评估多模态模型的真实理解和推理能力：（1）过滤出仅能由文本模型回答的问题，（2）扩充候选选项，以及（3）引入仅包含视觉输入的设置，其中问题嵌入在图像中。这种设置挑战AI同时真正“看到”和“阅读”，测试无缝整合视觉和文本信息的基本人类认知技能。结果显示，在MMMU-Pro上，模型性能明显低于在MMMU上，各模型的性能降低范围从16.8%到26.9%不等。我们探讨了OCR提示和Chain of Thought（CoT）推理的影响，发现OCR提示影响微乎其微，而CoT通常会提高性能。MMMU-Pro提供了一个更严格的评估工具，紧密模拟真实场景，并为未来多模态AI研究提供宝贵方向。

基于功能性的机器人操作与流匹配
Affordance-based Robot Manipulation with Flow Matching

Sep 2

ByFan Zhang, Michael Gienger

我们提出了一个辅助机器人操作的框架，重点解决了两个基本挑战：首先，有效地将大规模模型调整到下游场景可供性理解任务中，特别是在日常生活场景中，收集涉及人类的多任务数据需要大量努力；其次，通过基于视觉可供性模型的机器人轨迹学习来有效地解决机器人轨迹学习问题。我们通过采用参数高效的提示调整方法来应对第一个挑战，该方法在冻结视觉模型之前添加可学习的文本提示，以预测多任务场景中的操作可供性。然后，我们提出通过受可供性指导的机器人轨迹学习来实现轨迹学习，采用监督的流匹配方法。流匹配将机器人视觉运动策略表示为将随机航点流向期望的机器人轨迹的条件过程。最后，我们引入了一个涵盖日常生活活动中的10个任务的真实世界数据集来测试我们的框架。我们的广泛评估突出了所提出的用于学习操作可供性的提示调整方法与语言提示器实现了竞争性能，并且在满足参数效率的同时，甚至优于其他微调协议跨数据规模，学习多任务机器人轨迹的单一流匹配策略也比其他行为克隆方法始终表现更好，尤其是在考虑到多模态机器人动作分布的情况下。我们的框架通过流匹配无缝统一了可供性模型学习和机器人操作的轨迹生成。

北极-雪编码器：揭秘代码预训练中的高质量数据
Arctic-SnowCoder: Demystifying High-Quality Data in Code Pretraining

Sep 3

ByYuxiang Wei, Hojae Han, Rajhans Samdani

近期研究越来越表明，高质量数据对于语言模型的有效预训练至关重要。然而，“高质量”的精确定义仍未被充分探讨。针对代码领域，我们介绍了Arctic-SnowCoder-1.3B，这是一个在555B标记上进行了预训练的数据高效基础代码模型，经历了三个阶段逐渐细化数据：（1）使用500B标准质量代码标记进行一般预训练，经过基本过滤、去重和净化预处理，（2）继续预训练，使用从第一阶段中通过BERT风格质量注释器选择的50B高质量标记，该注释器经过训练，能够区分好代码和随机数据，使用从高质量代码文件中提取的正例，以及来自Magicoder和StarCoder2-Instruct的指导数据，以及（3）增强预训练，使用由Llama-3.1-70B创建的5B合成数据，使用第二阶段数据作为种子，调整了Magicoder方法进行预训练。尽管在有限数据集上训练，Arctic-SnowCoder在BigCodeBench上取得了最先进的性能，这是一个专注于实际和具有挑战性的编程任务的编码基准，与仅训练不超过1T标记的大小相似的模型相比，其性能超过了Phi-1.5-1.3B的36％。在所有评估基准中，Arctic-SnowCoder-1.3B击败了在1T标记上进行预训练的StarCoderBase-3B。此外，它与在数万亿标记上进行训练的领先小型基础代码模型的性能相匹配。例如，Arctic-SnowCoder-1.3B在HumanEval+上超过了在超过3.3T标记上进行预训练的StarCoder2-3B，这是一个评估功能级代码生成的基准，并且在BigCodeBench上保持竞争力。我们的评估提供了对Arctic-SnowCoder各种设计选择的全面分析。最重要的是，我们发现高质量数据的关键在于与下游应用程序的分布对齐。

政治辩论：用于政治文本的高效零样本和少样本分类器
Political DEBATE: Efficient Zero-shot and Few-shot Classifiers for Political Text

Sep 3

ByMichael Burnham, Kayla Kahn, Ryan Yank Wang, Rachel X. Peng

社会科学家迅速采用大型语言模型，因为它们具有在无监督训练的情况下对文档进行注释的能力，这种能力被称为零样本学习。然而，由于其计算需求、成本和通常的专有属性，这些模型常常与复制和开放科学标准相冲突。本文介绍了用于政治文档零样本和少样本分类的政治DEBATE（DeBERTa文本蕴涵算法）语言模型。这些模型不仅在零样本和少样本分类方面与最先进的大型语言模型一样好，甚至更好，而且效率更高，完全开源。通过在简单随机抽样的10-25个文档上训练模型，它们可以胜过在数百或数千个文档上训练的监督分类器和使用复杂的工程提示的最先进生成模型。此外，我们发布了用于训练这些模型的PolNLI数据集，这是一个包含超过200,000份政治文档的语料库，涵盖800多个分类任务，具有高度准确的标签。

FastVoiceGrad：基于一步扩散的语音转换与对抗条件扩散蒸馏
FastVoiceGrad: One-step Diffusion-Based Voice Conversion with Adversarial Conditional Diffusion Distillation

Sep 3

ByTakuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo

基于扩散的语音转换（VC）技术，如VoiceGrad，因其在语音质量和说话人相似度方面的高VC性能而备受关注。然而，一个显著的局限是多步反向扩散导致的推断速度缓慢。因此，我们提出了FastVoiceGrad，一种新颖的一步扩散型VC，将迭代次数从几十次减少到一次，同时继承多步扩散型VC的高VC性能。我们利用对抗条件扩散蒸馏（ACDD）获得模型，利用生成对抗网络和扩散模型的能力，同时重新考虑采样中的初始状态。一次任意到任意VC的评估表明，FastVoiceGrad实现了优于或与先前多步扩散型VC相媲美的VC性能，同时提高了推断速度。音频样本可在以下网址找到：https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/fastvoicegrad/.

AI研究论文每日精选

每日精选AI研究论文及翻译

Loopy: 通过长期运动依赖关系驯服音频驱动的肖像化头像
Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency

Sep 4

ByJianwen Jiang, Chao Liang, Jiaqi Yang, Gaojie Lin, Tianyun Zhong, Yanbo Zheng

LongLLaVA：通过混合架构高效扩展多模式LLM到1000张图片
LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture

Sep 4

ByXidong Wang, Dingjie Song, Shunian Chen, Chen Zhang, Benyou Wang

FastVoiceGrad：基于一步扩散的语音转换与对抗条件扩散蒸馏
FastVoiceGrad: One-step Diffusion-Based Voice Conversion with Adversarial Conditional Diffusion Distillation

Sep 3

ByTakuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo