AI研究论文每日精选

每日精选AI研究论文及翻译

Transformer是SSM：广义模型和高效算法的代表，通过结构化状态空间对偶实现。
Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

May 31

ByTri Dao, Albert Gu

尽管Transformer一直是深度学习在语言建模方面取得成功的主要架构，但最近已经展示了状态空间模型（SSMs）如Mamba在小到中等规模上可以与Transformer匹敌甚至胜过它。我们展示了这些模型族实际上是非常密切相关的，并且建立了一个丰富的理论连接框架，将SSMs与注意力的各种变体通过对一个经过充分研究的结构化半可分解矩阵类的各种分解进行连接起来。我们的状态空间对偶（SSD）框架使我们能够设计一个新的架构（Mamba-2），其核心层是Mamba选择性SSM的改进版本，速度提高了2-8倍，同时在语言建模方面继续与Transformer保持竞争力。

视频-MME：视频分析中多模态LLM的首个全面评估基准。
Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

May 31

ByChaoyou Fu, Yuhan Dai, Yondong Luo, Lei Li, Shuhuai Ren, Renrui Zhang, Zihan Wang, Chenyu Zhou, Yunhang Shen, Mengdan Zhang, Peixian Chen, Yanwei Li, Shaohui Lin, Sirui Zhao, Ke Li, Tong Xu, Xiawu Zheng, Enhong Chen, Rongrong Ji, Xing Sun

在追求人工通用智能的过程中，多模态大型语言模型（MLLMs）已成为最近进展的焦点。然而，主要关注仍然集中在发展它们在静态图像理解方面的能力上。MLLMs在处理序列视觉数据方面的潜力仍然未被充分探索，突显了对其性能进行全面、高质量评估的缺失。在本文中，我们介绍了Video-MME，这是首个全谱多模态评估基准，用于MLLMs在视频分析中。我们的工作通过四个关键特点与现有基准有所区别：1）视频类型的多样性，涵盖了6个主要视觉领域，30个子领域，以确保广泛的场景泛化能力；2）时间维度的持续性，包括短、中、长期视频，范围从11秒到1小时，以获得强大的上下文动态；3）数据模态的广度，整合了视频帧之外的多模态输入，包括字幕和音频，以揭示MLLMs的全面能力；4）注释的质量，利用专家注释者进行严格手动标注，以促进精确可靠的模型评估。我们手动选择了900个视频，总计256小时，并通过反复观看所有视频内容进行了注释，产生了2700个问答对。通过Video-MME，我们广泛评估了各种最先进的MLLMs，包括GPT-4系列和Gemini 1.5 Pro，以及开源图像模型如InternVL-Chat-V1.5和视频模型如LLaVA-NeXT-Video。我们的实验表明，Gemini 1.5 Pro是表现最佳的商业模型，明显优于开源模型。我们的数据集以及这些发现强调了在处理更长序列和多模态数据方面需要进一步改进的必要性。项目页面：https://video-mme.github.io

困惑于困惑：基于困惑度的数据修剪与小型参考模型
Perplexed by Perplexity: Perplexity-Based Data Pruning With Small Reference Models

May 30

ByZachary Ankner, Cody Blakeney, Kartik Sreenivasan, Max Marion, Matthew L. Leavitt, Mansheej Paul

在这项工作中，我们研究了小型语言模型是否能够确定大规模文本数据集的高质量子集，从而提高较大语言模型的性能。尽管现有研究表明，基于较大模型困惑度的修剪可以产生高质量数据，但我们研究了较小模型是否可以用于基于困惑度的修剪，以及修剪如何受到被修剪数据的领域组成的影响。我们证明，对于多个数据集组成，基于困惑度的预训练数据修剪可以显著提高下游任务的性能：基于一个1.25亿参数模型计算的困惑度进行修剪，可以将一个30亿参数模型在下游任务的平均性能提高高达2.04倍，并且可以实现预训练步骤的减少，以达到相当的基准性能，减少高达1.45倍。此外，我们证明，基于困惑度的数据修剪还可以在过度训练和数据受限制的情况下提高下游性能。

Kaleido扩散：通过自回归潜在建模改进条件扩散模型
Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling

May 31

ByJiatao Gu, Ying Shen, Shuangfei Zhai, Yizhe Zhang, Navdeep Jaitly, Joshua M. Susskind

扩散模型已成为从文本描述生成高质量图像的强大工具。尽管取得了成功，但这些模型在采样图像时往往表现出有限的多样性，特别是在采样时使用高分类器无关的引导权重时。为了解决这个问题，我们提出了Kaleido，一种通过整合自回归潜在先验来增强样本多样性的新方法。Kaleido集成了一个自回归语言模型，对原始标题进行编码并生成潜在变量，作为引导和促进图像生成过程的抽象和中间表示。在本文中，我们探讨了各种离散潜在表示，包括文本描述、检测边界框、对象斑块和视觉标记。这些表示使扩散模型的输入条件多样化和丰富化，从而实现更多样化的输出。我们的实验结果表明，Kaleido有效地扩展了从给定文本描述生成的图像样本的多样性，同时保持了高图像质量。此外，我们展示了Kaleido密切遵循生成的潜在变量提供的引导，展示了其有效控制和指导图像生成过程的能力。

4D扩散：多视角视频扩散模型用于4D生成
4Diffusion: Multi-view Video Diffusion Model for 4D Generation

May 31

ByHaiyu Zhang, Xinyuan Chen, Yaohui Wang, Xihui Liu, Yunhong Wang, Yu Qiao

当前的4D生成方法借助先进的扩散生成模型取得了显著的效果。然而，这些方法缺乏多视角时空建模，在整合来自多个扩散模型的不同先验知识方面遇到挑战，导致时间外观不一致和闪烁问题。在本文中，我们提出了一种新颖的4D生成流程，名为4Diffusion，旨在从单目视频中生成空间时间一致的4D内容。我们首先设计了一个针对多视角视频生成的统一扩散模型，通过将可学习的运动模块融入冻结的3D感知扩散模型中，以捕获多视角空间时间相关性。在经过精心筛选的数据集上训练后，我们的扩散模型获得了合理的时间一致性，并固有地保留了3D感知扩散模型的泛化能力和空间一致性。随后，我们提出了基于我们的多视角视频扩散模型的4D感知得分蒸馏采样损失，以优化由动态NeRF参数化的4D表示。这旨在消除由多个扩散模型引起的差异，从而实现生成空间时间一致的4D内容。此外，我们设计了一个锚定损失来增强外观细节，并促进动态NeRF的学习。大量定性和定量实验表明，我们的方法相比先前的方法实现了更优越的性能。

用于内存高效网络训练的4位洗发水
4-bit Shampoo for Memory-Efficient Network Training

May 28

BySike Wang, Jia Li, Pan Zhou, Hua Huang

二阶优化器通过维护一个称为预处理器的矩阵，在理论和实践中均优于一阶优化器。构成预处理器及其逆根的状态限制了二阶优化器训练模型的最大尺寸。为解决这一问题，将32位优化器状态压缩为更低位宽已显示出减少内存使用的潜力。然而，当前方法仅适用于一阶优化器。本文提出首个4位二阶优化器，以4位Shampoo为例，其性能与32位优化器相似。我们表明，在4位Shampoo中量化预处理器的特征向量矩阵在理论和实验上均明显优于量化预处理器本身。通过纠正量化特征向量矩阵的正交性，我们增强了预处理器特征向量矩阵的逼近，这也有利于计算其逆4次方根。此外，我们发现，在量化二阶优化器状态时，线性平方量化略优于动态树量化。对各种用于图像分类的网络进行评估表明，我们的4位Shampoo在保持可比的测试准确性的同时更具内存效率。源代码将会提供。