AI研究论文每日精选

每日精选AI研究论文及翻译

LongRoPE：将LLM上下文窗口扩展至超过200万个标记
LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens

Feb 21

ByYiran Ding, Li Lyna Zhang, Chengruidong Zhang, Yuanyuan Xu, Ning Shang, Jiahang Xu, Fan Yang, Mao Yang

116

大的上下文窗口是大型语言模型（LLMs）中一个理想的特性。然而，由于高昂的微调成本、长文本的稀缺性以及新标记位置引入的灾难性数值，目前扩展的上下文窗口仅限于大约128k个标记。本文介绍了LongRoPE，首次将预训练的LLMs的上下文窗口扩展到令人印象深刻的2048k个标记，仅需进行1k次微调步骤，训练长度为256k，同时保持原始短上下文窗口的性能。这是通过三项关键创新实现的：（i）我们识别并利用两种形式的位置插值非均匀性，通过高效搜索提供更好的微调初始化，实现非微调场景下8倍扩展；（ii）我们引入渐进式扩展策略，首先微调256k长度的LLM，然后对微调后的扩展LLM进行第二次位置插值，实现2048k上下文窗口；（iii）我们在8k长度上重新调整LongRoPE，以恢复短上下文窗口性能。在LLaMA2和Mistral上进行的大量实验跨越各种任务，展示了我们方法的有效性。通过LongRoPE扩展的模型保留了原始架构，仅对位置嵌入进行了轻微修改，并且可以重用大部分现有的优化。

YOLOv9：使用可编程梯度信息学习想要学习的内容
YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

Feb 21

ByChien-Yao Wang, I-Hau Yeh, Hong-Yuan Mark Liao

当今的深度学习方法侧重于如何设计最合适的目标函数，以使模型的预测结果与基本事实最接近。同时，必须设计一个能够为预测获取足够信息的适当架构。现有方法忽略了一个事实，即当输入数据经过逐层特征提取和空间转换时，将会丢失大量信息。本文将深入探讨数据在通过深度网络传输时出现的重要问题，即信息瓶颈和可逆函数。我们提出了可编程梯度信息（PGI）的概念，以应对深度网络实现多个目标所需的各种变化。PGI可以为目标任务提供完整的输入信息，以计算目标函数，从而获得可靠的梯度信息来更新网络权重。此外，基于梯度路径规划设计了一种新的轻量级网络架构——广义高效层聚合网络（GELAN）。GELAN的架构证实了PGI在轻量级模型上取得了优越的结果。我们在基于 MS COCO 数据集的目标检测上验证了提出的 GELAN 和 PGI。结果显示，GELAN 仅使用传统卷积算子即可实现比基于深度卷积开发的最先进方法更好的参数利用率。PGI可用于各种模型，从轻量级到大型模型。它可用于获取完整信息，使得从头开始训练的模型可以获得比使用大型数据集预训练的最先进模型更好的结果，比较结果见图1。源代码位于：https://github.com/WongKinYiu/yolov9。

Aria日常活动数据集
Aria Everyday Activities Dataset

Feb 20

ByZhaoyang Lv, Nickolas Charron, Pierre Moulon, Alexander Gamino, Cheng Peng, Chris Sweeney, Edward Miller, Huixuan Tang, Jeff Meissner, Jing Dong, Kiran Somasundaram, Luis Pesqueira, Mark Schwesinger, Omkar Parkhi, Qiao Gu, Renzo De Nardi, Shangyi Cheng, Steve Saarinen, Vijay Baiyya, Yuyang Zou, Richard Newcombe, Jakob Julian Engel, Xiaqing Pan, Carl Ren

我们介绍Aria日常活动（AEA）数据集，这是一个使用Project Aria眼镜记录的主观多模态开放数据集。AEA包含了由多个佩戴者在五个地理多样的室内位置记录的143个日常活动序列。每个记录都包含通过Project Aria眼镜记录的多模态传感器数据。此外，AEA提供机器感知数据，包括高频全局对齐的3D轨迹、场景点云、每帧的3D眼睛注视向量和时间对齐的语音转录。在本文中，我们展示了通过该数据集实现的一些示例研究应用，包括神经场景重建和提示分割。AEA是一个开放源代码数据集，可从projectaria.com下载。我们还提供了在Project Aria工具中使用数据集的开源实现和示例。

SDXL-Lightning：渐进式对抗扩散蒸馏
SDXL-Lightning: Progressive Adversarial Diffusion Distillation

Feb 21

ByShanchuan Lin, Anran Wang, Xiao Yang

我们提出了一种扩散蒸馏方法，基于SDXL，在一步/少步1024像素文本到图像生成中取得了新的最先进成果。我们的方法结合了渐进式和对抗性蒸馏，以在质量和模式覆盖之间取得平衡。本文讨论了理论分析、鉴别器设计、模型公式和训练技术。我们以LoRA和完整UNet权重的形式开源了我们蒸馏的SDXL-Lightning模型。

快照视频：用于文本到视频合成的尺度时空变换器
Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis

Feb 22

ByWilli Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Ekaterina Deyneka, Tsai-Shien Chen, Anil Kag, Yuwei Fang, Aleksei Stoliar, Elisa Ricci, Jian Ren, Sergey Tulyakov

当代用于生成图像的模型展现出卓越的质量和多功能性。受到这些优势的影响，研究界重新运用这些模型来生成视频。由于视频内容具有高度冗余性，我们认为单纯地将图像模型的进展带入视频生成领域会降低动作保真度、视觉质量，并影响可扩展性。在这项工作中，我们构建了 Snap Video，这是一个以视频为先的模型，系统地解决了这些挑战。为此，我们首先扩展了EDM框架，以考虑空间和时间上的冗余像素，并自然地支持视频生成。其次，我们发现 U-Net，在图像生成背后的得力工具，在生成视频时扩展性较差，需要大量的计算开销。因此，我们提出了一种基于Transformer的新架构，训练速度比U-Net快3.31倍（推理速度快约4.5倍）。这使我们能够高效地训练一个拥有数十亿参数的文本到视频模型，首次在多个基准测试中取得了最先进的结果，并生成了质量更高、时间一致性更强和动作复杂性更高的视频。用户研究表明，我们的模型在很大程度上优于最新的方法。请访问我们的网站https://snap-research.github.io/snapvideo/。

用户-LLM：利用用户嵌入实现高效的LLM语境化
User-LLM: Efficient LLM Contextualization with User Embeddings

Feb 21

ByLin Ning, Luyang Liu, Jiaxing Wu, Neo Wu, Devora Berlowitz, Sushant Prakash, Bradley Green, Shawn O'Banion, Jun Xie

大型语言模型（LLMs）已经彻底改变了自然语言处理。然而，有效地整合复杂且可能带有噪音的用户交互数据仍然是一个挑战。为了解决这个问题，我们提出了User-LLM，这是一个新颖的框架，利用用户嵌入来对LLMs进行上下文化。这些嵌入是通过自监督预训练从各种用户交互中提炼出来的，捕捉了潜在的用户偏好以及随时间演变的情况。我们通过交叉注意力和软提示将这些用户嵌入与LLMs整合在一起，使LLMs能够动态地适应用户上下文。我们在MovieLens、Amazon Review和Google Local Review数据集上进行了全面的实验，展示了在各种任务中显著的性能提升。值得注意的是，我们的方法在长序列任务和需要深入理解用户的任务上优于基于文本提示的上下文化方法，同时具有高效的计算性能。我们进一步将Perceiver层整合到用户编码器和LLMs之间，以简化整合过程，降低计算需求。

在深度强化学习中，一个经过剪枝的网络是一个好的网络。
In deep reinforcement learning, a pruned network is a good network

Feb 19

ByJohan Obando-Ceron, Aaron Courville, Pablo Samuel Castro

最近的研究表明，深度强化学习代理在有效利用其网络参数方面存在困难。我们利用先前对稀疏训练技术优势的见解，并展示渐进幅度剪枝使代理能够最大化参数的有效性。这导致网络产生显著的性能改进，超过传统网络，并展现出一种“缩放定律”，仅使用完整网络参数的一小部分。

强迫LLMs做和透露（几乎）任何事情
Coercing LLMs to do and reveal (almost) anything

Feb 21

ByJonas Geiping, Alex Stein, Manli Shu, Khalid Saifullah, Yuxin Wen, Tom Goldstein

最近的研究表明，对大型语言模型（LLMs）进行的对抗性攻击可以将模型“越狱”以发表有害言论。在这项工作中，我们认为对LLMs的对抗性攻击范围远不止于越狱。我们提供了对可能的攻击面和攻击目标的广泛概述。基于一系列具体示例，我们讨论、分类和系统化那些能够诱使出各种意外行为的攻击，例如误导、模型控制、拒绝服务或数据提取。我们通过受控实验分析这些攻击，并发现其中许多源自使用具有编码能力的预训练LLMs的做法，以及普通LLM词汇表中应该出于安全考虑移除的奇怪“故障”标记的持续存在。

利用时间变化的扩散模型反演进行音乐风格转移。
Music Style Transfer with Time-Varying Inversion of Diffusion Models

Feb 21

BySifei Li, Yuxin Zhang, Fan Tang, Chongyang Ma, Weiming dong, Changsheng Xu

随着扩散模型的发展，文本引导的图像风格迁移展示了高质量可控合成结果。然而，利用文本进行多样音乐风格迁移面临着重大挑战，主要是由于匹配音频-文本数据集的有限可用性。音乐作为一种抽象而复杂的艺术形式，即使在同一流派内也展现出变化和复杂性，因此使准确的文本描述具有挑战性。本文提出了一种音乐风格迁移方法，能够使用最少的数据有效捕捉音乐属性。我们引入了一种新颖的时变文本反演模块，精确捕捉不同层次的梅尔频谱特征。在推断过程中，我们提出了一种减少偏差的风格化技术，以获得稳定的结果。实验结果表明，我们的方法可以迁移特定乐器的风格，并结合自然声音来创作旋律。样本和源代码可在https://lsfhuihuiff.github.io/MusicTI/ 上获得。

任务：令牌下采样以有效生成高分辨率图像
ToDo: Token Downsampling for Efficient Generation of High-Resolution Images

Feb 21

ByEthan Smith, Nayan Saxena, Aninda Saha

注意机制对图像扩散模型至关重要，然而，它们的二次计算复杂度限制了我们能够在合理时间和内存约束下处理的图像大小。本文研究了在生成图像模型中密集注意力的重要性，这些模型通常包含冗余特征，使它们适用于更稀疏的注意力机制。我们提出了一种新颖的无需训练的方法 ToDo，依赖于关键和值标记的标记降采样，可加速稳定扩散推断，对于常见尺寸可提高最多2倍，对于高分辨率如2048x2048可提高最多4.5倍或更多。我们证明了我们的方法在平衡高效吞吐量和保真度方面优于先前的方法。

BBA：用于大型视觉-语言模型推理的双模态行为对齐
BBA: Bi-Modal Behavioral Alignment for Reasoning with Large Vision-Language Models

Feb 21

ByXueliang Zhao, Xinting Huang, Tingchen Fu, Qintong Li, Shansan Gong, Lemao Liu, Wei Bi, Lingpeng Kong

多模态推理是大型视觉-语言模型（LVLMs）的关键能力。与领域特定语言（DSL）集成，提供精确的视觉表示，使这些模型有机会在复杂和专业领域执行更准确的推理。然而，传统的“思维链”（CoT）提示方法在有效利用视觉和DSL表示的独特优势方面面临挑战，主要是因为它们的推理机制不同。此外，在处理多步推理任务中经常无法解决关键步骤。为了解决这些挑战，我们引入了“双模态行为对齐”（BBA）提示方法，旨在最大限度地发挥DSL在增强复杂多模态推理任务中的潜力。该方法首先引导LVLMs为视觉和DSL表示创建单独的推理链。随后，通过解决任何不一致之处，将这些链进行对齐，从而实现不同模态行为的统一整合。我们的实验表明，BBA显著改善了GPT-4V（视觉）在几何问题解决（从28.34%到34.22%）、国际象棋位置优势预测（从42.08%到46.99%）和分子性质预测（从77.47%到83.52%）方面的性能。

D-Flow：通过流进行控制生成的微分。
D-Flow: Differentiating through Flows for Controlled Generation

Feb 21

ByHeli Ben-Hamu, Omri Puny, Itai Gat, Brian Karrer, Uriel Singer, Yaron Lipman

在无需重新训练特定任务模型的情况下，控制最先进的扩散和流匹配（FM）模型的生成结果，为解决逆问题、有条件生成以及一般受控生成提供了强大工具。在这项工作中，我们介绍了D-Flow，这是一个简单的框架，通过对流进行微分，优化源（噪声）点来控制生成过程。我们通过关键观察来推动这一框架，即针对使用高斯概率路径训练的扩散/FM模型，通过生成过程进行微分会将梯度投影到数据流形上，从而将先验隐式注入到优化过程中。我们在线性和非线性受控生成问题上验证了我们的框架，包括图像和音频逆问题以及有条件的分子生成，实现了领先水平的性能。

Ouroboros：大模型增强起草的推测解码
Ouroboros: Speculative Decoding with Large Model Enhanced Drafting

Feb 21

ByWeilin Zhao, Yuxiang Huang, Xu Han, Chaojun Xiao, Zhiyuan Liu, Maosong Sun

草拟-验证解码方法，如猜测解码，是广泛采用的无需训练的方法，用于加速大型语言模型（LLMs）的推理。猜测解码不像使用自回归过程按顺序解码标记，而是首先用高效的小模型创建草稿。然后需要LLMs以非自回归方式进行验证和校正，以最小化时间开销。生成更长的草稿一旦经过验证可以带来更显著的加速，但如果失败也会产生相当大的试错成本。由于高验证失败概率的影响，现有解码方法无法一次为验证草拟太多内容，从而实现次优的推理加速。在本文中，我们介绍了Ouroboros，它从LLMs的验证过程中构建短语候选池，为小模型的草拟生成提供候选。因此，Ouroboros可以进一步提高初始草稿的效率和有效性。在典型文本生成任务上的实验结果显示，与前瞻解码和猜测解码相比，Ouroboros实现了高达1.9倍和2.8倍的加速。Ouroboros的源代码可在https://github.com/thunlp/Ouroboros 上找到。

AI研究论文每日精选

每日精选AI研究论文及翻译

LongRoPE：将LLM上下文窗口扩展至超过200万个标记
LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens

Feb 21

ByYiran Ding, Li Lyna Zhang, Chengruidong Zhang, Yuanyuan Xu, Ning Shang, Jiahang Xu, Fan Yang, Mao Yang

116