每日精选AI研究论文及翻译
我们介绍了首个模型窃取攻击,可以从黑盒生产语言模型(如OpenAI的ChatGPT或Google的PaLM-2)中提取精确且非平凡的信息。具体来说,我们的攻击可以在典型API访问的情况下恢复变压器模型的嵌入投影层(考虑对称性)。在不到20美元的成本下,我们的攻击可以提取OpenAI的Ada和Babbage语言模型的整个投影矩阵。因此,我们首次确认这些黑盒模型分别具有隐藏维度为1024和2048。我们还恢复了gpt-3.5-turbo模型的确切隐藏维度大小,并估计恢复整个投影矩阵可能只需不到2,000个查询成本。最后,我们总结了潜在的防御和缓解措施,并讨论了可能延伸我们攻击的未来工作的影响。
最近大型语言模型的突破性进展为世界带来了巨大价值,其卓越能力源自其利用的庞大参数数量。然而,即使是目前内存容量最高的GPU,最高可达80GB,也远远不足以容纳这些庞大参数及其相关的优化器状态,进行基于随机梯度下降的优化。一种容纳这些巨大模型的方法是从多个GPU中聚合设备内存。然而,这种方法对于大多数学术研究人员来说成本太高,他们通常只有有限的预算用于许多高端GPU服务器。本文侧重于在商品服务器上,甚至是低端GPU上对巨大模型进行微调,这对大多数人工智能研究人员都是可行的。在这种情况下,最先进的作品ZeRO-Infinity 在商品服务器上运行时存在两个严重问题:1)由于低效的交换,GPU利用率低,2)由于CPU内存容量有限,可训练模型的大小受限。根本原因在于ZeRO-Infinity 是针对高端GPU服务器进行优化的。为此,我们提出了Fuyou,一种低成本训练框架,可以在低端服务器上的低端GPU和有限CPU内存容量上实现高效的100B巨大模型微调。关键思想是将SSD-CPU通信作为一个优化维度,并因此从系统化方法中精心协同优化计算和数据交换,以最大化GPU利用率。实验结果表明:1)Fuyou 能够在消费级GPU RTX 4090 上高效微调175B GPT-3,而ZeRO-Infinity 无法微调;2)在训练小型GPT-3 13B模型时,Fuyou 在RTX 4090 GPU 上实现了156 TFLOPS,而ZeRO-Infinity 只能实现45 TFLOPS。
为了解决视频理解中的本地冗余和全局依赖的双重挑战,本研究创新地将Mamba技术应用于视频领域。提出的VideoMamba克服了现有的3D卷积神经网络和视频变换器的局限性。其线性复杂度算子实现了高效的长期建模,这对于高分辨率长视频理解至关重要。广泛的评估揭示了VideoMamba的四个核心能力:(1)在视觉领域的可扩展性,无需进行大量数据集预训练,这要归功于一种新颖的自蒸馏技术;(2)对于识别即使存在细微运动差异的短期动作具有敏感性;(3)在长期视频理解方面具有优越性,展示了相对于传统基于特征的模型的重大进展;以及(4)与其他模态的兼容性,展示了在多模态环境中的稳健性。通过这些独特优势,VideoMamba为视频理解设立了新的基准,为全面视频理解提供了可扩展和高效的解决方案。所有代码和模型均可在https://github.com/OpenGVLab/VideoMamba获取。
自动三维生成近来备受关注。最近的方法大大加快了生成速度,但通常由于模型容量有限或三维数据有限而产生了较少细节的对象。受到视频扩散模型最新进展的启发,我们引入了V3D,利用预训练视频扩散模型的世界模拟能力来促进三维生成。为了充分释放视频扩散感知三维世界的潜力,我们进一步引入了几何一致性先验,并将视频扩散模型扩展为多视角一致的三维生成器。借助这一点,最先进的视频扩散模型可以进行微调,以生成环绕对象的360度轨道帧,仅需一张单独的图像。通过我们量身定制的重建流程,我们可以在3分钟内生成高质量的网格或三维高斯模型。此外,我们的方法可以扩展到场景级别的新视角合成,实现对相机路径的精确控制,同时具有稀疏输入视图。大量实验证明了所提方法在生成质量和多视角一致性方面的卓越性能。我们的代码可在https://github.com/heheyas/V3D找到。
在这项研究中,我们发现大型视觉-语言模型(LVLMs)中存在效率低下的注意力现象,尤其是在知名模型如LLaVA-1.5、QwenVL-Chat和Video-LLaVA中。我们发现在流行的LVLMs的深层中,对视觉标记的注意力计算极其低效,这表明与处理文本数据相比,需要采用更稀疏的方法。为此,我们引入了FastV,这是一种多功能即插即用方法,旨在通过学习早期层中的自适应注意力模式和在后续层中修剪视觉标记来优化计算效率。我们的评估表明,FastV能够显著降低计算成本(例如,对于LLaVA-1.5-13B,FLOPs减少了45),而在各种图像和视频理解任务中不会牺牲性能。FastV的计算效率和性能权衡是高度可定制的,也是帕累托有效的。它可以压缩一个拥有13B参数的模型的FLOPs,以实现比一个拥有7B参数模型更低的预算,同时仍保持出色的性能。我们相信FastV对于在边缘设备和商业模型中部署LVLMs具有实际价值。代码已发布在https://github.com/pkunlp-icler/FastV。
我们调查了自深度学习问世以来,用于预训练语言模型的算法改进速度。利用涵盖2012年至2023年的超过200个Wikitext和Penn Treebank语言模型评估数据集,我们发现达到一定性能阈值所需的计算量大约每8个月减半一次,95%置信区间约为5至14个月,远远快于摩尔定律下的硬件增长。我们估计了增强缩放定律,这使我们能够量化算法进展,并确定模型缩放与训练算法创新之间的相对贡献。尽管算法进展迅速,并出现了诸如Transformer等新架构,但我们的分析显示,计算量的增加在这段时间内对整体性能改进的贡献更大。尽管受到嘈杂基准数据的限制,我们的分析量化了语言建模的快速进展,阐明了计算量和算法对整体贡献的相对情况。
Sora的到来标志着文本到视频扩散模型的新时代,带来了视频生成和潜在应用方面的重大进展。然而,Sora以及其他文本到视频扩散模型高度依赖提示,目前尚无公开可用的数据集涵盖文本到视频提示的研究。本文介绍了VidProM,这是首个包含来自真实用户的167万个独特文本到视频提示的大规模数据集。此外,该数据集还包括由四种最先进的扩散模型生成的669万个视频以及一些相关数据。我们首先展示了这一大规模数据集的策划过程,这是一个耗时且昂贵的过程。随后,我们展示了所提出的VidProM与DiffusionDB的区别,后者是用于图像生成的大规模提示库数据集。通过对这些提示的分析,我们确定了专门为文本到视频生成设计的新提示数据集的必要性,并深入了解了真实用户在创建视频时的偏好。我们的大规模且多样化的数据集也激发了许多令人兴奋的新研究领域。例如,为了开发更好、更高效、更安全的文本到视频扩散模型,我们建议探索文本到视频提示工程、高效视频生成以及扩散模型的视频复制检测。我们将收集的数据集VidProM在GitHub和Hugging Face上以CC-BY-NC 4.0许可证公开提供。
扩散模型相对容易训练,但生成样本需要许多步骤。一致性模型要难训练得多,但可以在单个步骤中生成样本。 在本文中,我们提出了多步一致性模型:将一致性模型(Song等,2023年)和TRACT(Berthelot等,2023年)统一起来,可以在一致性模型和扩散模型之间进行插值:在采样速度和采样质量之间取得平衡。具体而言,1步一致性模型是传统的一致性模型,而我们展示了∞步一致性模型是扩散模型。 多步一致性模型在实践中表现非常出色。通过将样本预算从单步增加到2-8步,我们可以更轻松地训练出生成更高质量样本的模型,同时保留大部分采样速度优势。显著的结果是在8步中在Imagenet 64上达到1.4 FID,在8步中在Imagenet128上达到2.1 FID,同时使用一致性蒸馏。我们还展示了我们的方法可扩展到文本到图像扩散模型,生成的样本质量非常接近原始模型的质量。
最近,基于主题驱动的生成引起了广泛关注,因为它能够个性化文本到图像的生成。典型的研究侧重于学习新主题的私有属性。然而,一个重要的事实未被认真对待,即主题不是一个孤立的新概念,而应是预训练模型中某一类别的专门化。这导致主题未能全面继承其类别中的属性,导致属性相关生成质量不佳。在本文中,受面向对象编程的启发,我们将主题建模为一个派生类,其基类是其语义类别。这种建模使主题能够从其类别中继承公共属性,同时从用户提供的示例中学习其私有属性。具体而言,我们提出了一种即插即用的方法,名为主题派生正则化(SuDe)。它通过约束主题驱动生成的图像在语义上属于主题的类别,构建了基础派生类建模。在各种主题上进行的大量实验,基于三种基线和两种主干网络,表明我们的SuDe能够实现富有想象力的属性相关生成,同时保持主题的忠实性。代码将很快在FaceChain(https://github.com/modelscope/facechain)上开源。