每日精选AI研究论文及翻译
近年来,大型语言模型(LLMs)的快速发展备受关注。尽管在许多语言理解任务中具有强大能力,但巨大的计算负担在很大程度上限制了LLMs的应用,特别是当需要将它们部署到边缘设备时。本文提出了一种量化感知低秩适应(QA-LoRA)算法。动机在于量化和适应的自由度不平衡,解决方案是使用增加量化自由度同时减少适应自由度的分组操作符。QA-LoRA可以轻松实现,只需几行代码,它为原始LoRA增加了双重能力:(i)在微调期间,LLM的权重被量化(例如,转换为INT4)以减少时间和内存使用;(ii)在微调后,LLM和辅助权重被自然集成到一个量化模型中,而不会丢失准确性。我们将QA-LoRA应用于LLaMA和LLaMA2模型系列,并验证了它在不同微调数据集和下游场景中的有效性。代码将在https://github.com/yuhuixu1993/qa-lora 上提供。
本工作旨在通过利用预训练的文本到图像(T2I)模型作为基础,学习一个高质量的文本到视频(T2V)生成模型。在同时实现 a) 合成视觉逼真且时间连贯的视频以及 b) 保留预训练 T2I 模型强大的创造性生成能力的过程中,这是一项极具吸引力但具有挑战性的任务。为此,我们提出了LaVie,一个集成视频生成框架,采用级联视频潜在扩散模型,包括基础T2V模型、时间插值模型和视频超分辨率模型。我们的关键见解有两个方面:1)我们揭示了简单时间自注意力的融合,结合旋转位置编码,足以充分捕捉视频数据中固有的时间相关性。2)此外,我们验证了联合图像-视频微调过程在产生高质量和创造性结果中发挥了关键作用。为增强LaVie的性能,我们贡献了一个名为Vimeo25M的全面多样的视频数据集,包括2500万个文本-视频对,注重质量、多样性和审美吸引力。大量实验证明LaVie在定量和定性上均实现了最先进的性能。此外,我们展示了预训练LaVie模型在各种长视频生成和个性化视频合成应用中的多功能性。
基于Transformer的大型语言模型(LLM)的计算可以通过批量大小、隐藏维度、层数和序列长度来描述。到目前为止,用于加速LLM训练的系统工作主要集中在前三个维度上:批量大小的数据并行、隐藏大小的张量并行和模型深度或层数的管道并行。这些广泛研究的并行形式并非针对或针对长序列Transformer模型进行优化。鉴于长序列LLM的实际应用需求,人们开始重新关注序列并行。然而,现有的序列并行工作受到内存通信效率的限制,限制了它们对长序列大型模型的可扩展性。在这项工作中,我们介绍了DeepSpeed-Ulysses,这是一种新颖、便携且有效的方法,可实现高效且可扩展的LLM训练,适用于极长序列长度。DeepSpeed-Ulysses的核心是沿着序列维度对输入数据进行分区,并采用高效的全互联集体通信进行注意力计算。理论通信分析表明,与其他方法随着序列长度增加而产生通信开销不同,DeepSpeed-Ulysses在序列长度和计算设备成比例增加时保持恒定的通信量。此外,实验评估表明,DeepSpeed-Ulysses在4倍更长的序列长度下比现有方法SOTA基准训练速度快2.5倍。
最近深度学习方法的进展,如LLMs和扩散模型,已经产生了对改进的量化方法的需求,这些方法能够满足这些现代架构的计算需求,同时保持准确性。为了实现这一目标,我们研究了FP8数据格式在75种独特的网络架构上的优势,涵盖了广泛的任务,包括机器翻译、语言建模、文本生成、图像分类、生成和分割。我们研究了三种不同的FP8表示(E5M2、E4M3和E3M4),以研究在模型准确性上动态范围和精度之间不同程度的权衡对效果的影响。基于我们广泛的研究,我们开发了一个可以泛化到不同网络架构的量化工作流程。我们的实证结果显示,FP8格式在多个方面优于INT8,包括工作负载覆盖率(92.64% vs. 65.87%)、模型准确性和适用于更广泛操作的性能。此外,我们的发现表明,E4M3更适用于自然语言处理模型,而E3M4在计算机视觉任务上略优于E4M3。代码可在Intel神经压缩器的GitHub页面上公开获取:https://github.com/intel/neural-compressor。
我们研究了基于Transformer的大型语言模型(LLMs)在生成事实错误文本时的内部行为。我们提出将事实查询建模为约束满足问题,并利用这一框架来研究模型如何在内部与事实约束进行交互。具体而言,我们发现模型对约束标记的关注程度与其响应的事实准确性之间存在强烈的正相关关系。在我们策划的包含超过40,000个提示的11个数据集中,我们研究了使用Llama-2系列在所有规模(7B、13B、70B)上预测事实错误的任务。我们提出了SAT Probe,一种探测自注意力模式的方法,可以预测约束满足和事实错误,并允许早期错误识别。这一方法和发现展示了如何利用对LLMs中事实性的机械理解可以增强可靠性。