每日精选AI研究论文及翻译
机器学习最近取得的突破性成功主要归功于规模:即大规模基于注意力的架构和空前规模的数据集。本文研究了在国际象棋训练规模对性能的影响。与依赖复杂启发式、显式搜索或二者结合的传统国际象棋引擎不同,我们使用监督学习在一个包含1000万场国际象棋对局的数据集上训练了一个拥有2.7亿参数的Transformer模型。我们使用强大的Stockfish 16引擎提供的动作值对数据集中的每个棋盘进行了标注,共产生约150亿数据点。我们最大的模型在与人类的Lichess闪电赛中达到了2895的Elo评分,并成功解决了一系列具有挑战性的国际象棋难题,而无需任何领域特定的调整或显式搜索算法。我们还展示了我们的模型优于AlphaZero的策略和价值网络(不使用MCTS)以及GPT-3.5-turbo-instruct。对模型和数据集规模的系统调查表明,强大的国际象棋表现仅在足够大的规模下才会出现。为了验证我们的结果,我们进行了一系列关于设计选择和超参数的广泛消融实验。
屏幕用户界面(UI)和信息图表在人类交流和人机交互中扮演重要角色,它们共享类似的视觉语言和设计原则。我们介绍了ScreenAI,这是一个专门用于UI和信息图表理解的视觉语言模型。我们的模型在PaLI架构的基础上改进了pix2struct的灵活拼接策略,并在独特混合数据集上进行了训练。这个混合数据集的核心是一项新颖的屏幕注释任务,模型需要识别UI元素的类型和位置。我们利用这些文本注释来描述屏幕给大型语言模型,并自动生成规模化的问答(QA)、UI导航和摘要训练数据集。我们进行消融研究来展示这些设计选择的影响。仅有5B参数的ScreenAI在UI和信息图表任务(多页DocVQA、WebSRC、MoTIF和Widget字幕)上取得了新的最先进结果,并在其他任务(图表QA、DocVQA和信息图表VQA)上相比尺寸相似的模型表现出了最佳性能。最后,我们发布了三个新数据集:一个专注于屏幕注释任务,另外两个专注于问答。
最近出现了直接偏好对齐(DAP)方法,如DPO,作为强化学习从人类反馈(RLHF)的高效替代方案,无需单独的奖励模型。然而,DAP方法中使用的偏好数据集通常在训练之前收集,并且从不更新,因此反馈纯粹是离线的。此外,这些数据集中的响应通常是从一个与正在对齐的语言模型不同的语言模型中抽样的,由于模型随着训练而演变,对齐阶段不可避免地是离策略的。在这项研究中,我们认为在线反馈是关键,并改进了DAP方法。我们的方法,在线人工智能反馈(OAIF),使用一个语言模型作为注释者:在每次训练迭代中,我们从当前模型中抽样两个响应,并提示LLM注释者选择哪个更受偏好,从而提供在线反馈。尽管简单,但我们通过在几个任务中进行人类评估表明,OAIF优于离线DAP和RLHF方法。我们进一步展示了在OAIF中利用的反馈是可以轻松控制的,通过向LLM注释者提供指令提示。
在质量和速度方面,3D内容创建取得了显著进展。尽管当前的前馈模型可以在几秒内生成3D对象,但其分辨率受到训练过程中需要的密集计算的限制。在本文中,我们介绍了大型多视角高斯模型(LGM),这是一个新颖的框架,旨在从文本提示或单视图图像生成高分辨率的3D模型。我们的关键见解有两个方面:1)3D表示:我们提出了多视角高斯特征作为一种高效而强大的表示,然后可以将其融合在一起进行可微渲染。2)3D骨干:我们提出了一种不对称U-Net作为一个高吞吐量的骨干,可在多视角图像上运行,这些图像可以通过利用多视角扩散模型从文本或单视图图像输入中生成。大量实验证明了我们方法的高保真度和高效性。值得注意的是,我们保持了在5秒内生成3D对象的快速速度,同时将训练分辨率提升至512,从而实现了高分辨率的3D内容生成。
我们提出了EfficientViT-SAM,这是一种新型的加速片段任意模型系列。我们保留了SAM的轻量级提示编码器和掩码解码器,同时用EfficientViT替换了沉重的图像编码器。在训练阶段,我们首先从SAM-ViT-H图像编码器向EfficientViT进行知识蒸馏。随后,我们在SA-1B数据集上进行端到端训练。由于EfficientViT的高效性和容量,EfficientViT-SAM在A100 GPU上的TensorRT加速性能提升达到48.9倍,而不会牺牲性能。我们的代码和预训练模型已发布在https://github.com/mit-han-lab/efficientvit。
基于Transformer的大型语言模型(LLMs)现已部署到数亿用户。LLM推断通常在共享前缀的序列批次上执行,例如少样本示例或聊天机器人系统提示。在这种大批量设置中,解码可能会受到注意力操作的瓶颈影响,该操作从内存中读取大型键值(KV)缓存,并为批次中的每个序列计算低效的矩阵-向量乘积。在这项工作中,我们介绍了Hydragen,这是一种硬件感知的精确注意力实现,具有共享前缀。Hydragen分别计算共享前缀和独特后缀的注意力。这种分解通过跨序列批次一起批量处理查询,从而实现了高效的前缀注意力,减少了冗余的内存读取,并实现了硬件友好的矩阵乘法的使用。我们的方法可以将端到端LLM吞吐量提高多达32倍,超过竞争基线,速度随着批次大小和共享前缀长度的增加而增加。Hydragen还可以使用非常长的共享上下文:在高批次大小下,将前缀长度从1K增加到16K标记,Hydragen吞吐量减少不到15%,而基线的吞吐量下降超过90%。Hydragen不仅适用于简单的前缀-后缀分解,还可应用于基于树的提示共享模式,使我们能够进一步减少在竞争性编程问题上的推断时间,减少55%。
大型语言模型越来越能够解决通常被认为需要人类水平推理能力的任务。然而,这些模型在诸如抽象和推理语料库(ARC)等智能总体基准测试中的表现仍然非常糟糕。在本文中,我们将ARC视为一个编程通过示例问题,并引入了一种名为代码迭代(CodeIt)的新颖且可扩展的语言模型自我改进方法。我们的方法在程序抽样和事后重新标记以及从优先经验重放中学习之间进行迭代。通过将一个情节的目标(即给定输入的目标程序输出)重新标记为抽样程序产生的实际输出,我们的方法有效地处理了程序合成中奖励的极端稀疏性。将CodeIt应用于ARC数据集,我们展示了优先事后重放,以及预训练和数据增强,导致成功的跨任务泛化。CodeIt是首个能够扩展到完整ARC评估数据集的神经符号方法。我们的方法解决了ARC评估任务中的15%,取得了最先进的性能,并优于现有的神经和符号基线。
线性注意力已显示出提高Transformer效率的潜力,将注意力的二次复杂度降低为与序列长度成线性关系。这为以下方面带来了令人兴奋的前景:(1) 从头开始训练线性Transformer,(2) 将特定任务的Transformer进行“微调转换”为线性版本以恢复任务性能,以及(3) 将大型语言模型等Transformer进行“预训练转换”为可在下游任务上进行微调的线性版本。然而,线性注意力在质量上通常表现不如标准softmax注意力。为了弥补这一性能差距,我们发现先前的线性注意力缺乏与良好性能相关的softmax注意力的关键属性:低熵(或“尖锐”)权重和点积单调性。我们进一步观察到一种令人惊讶的简单特征映射,保留了这些属性并与softmax性能相匹配,但在线性注意力中计算效率低下。因此,我们提出了Hedgehog,一种可学习的线性注意力,保留了softmax注意力的尖锐和单调特性,同时保持线性复杂度。Hedgehog使用简单可训练的MLP来生成模仿softmax注意力的注意力权重。实验表明,Hedgehog在从头开始训练和微调转换设置中恢复了超过99%的标准Transformer质量,在WikiText-103上与因果GPT相比,比先前的线性注意力高出多达6个困惑度点,在微调的双向BERT上高出多达8.7个GLUE分数点。Hedgehog还实现了预训练转换。将预训练的GPT-2转换为线性注意力变体,在125M次二次解码器模型上,实现了在WikiText-103上的最先进16.7的困惑度。最后,我们将预训练的Llama-2 7B转换为可行的线性注意力Llama。通过低秩适应,Hedgehog-Llama2 7B在ROUGE-1分数上比基本标准注意力模型高出28.1个点,而先前的线性注意力导致16.5个点的下降。
从文本提示生成长形式44.1kHz立体声音频可能需要大量计算。此外,大多数先前的研究并未解决音乐和音效在持续时间上自然变化的问题。我们的研究侧重于使用生成模型高效生成长形式、可变长度的44.1kHz立体音乐和声音。Stable Audio基于潜在扩散,其潜在性由全卷积变分自动编码器定义。它不仅以文本提示为条件,还以时间嵌入为条件,可以对生成的音乐和声音的内容和长度进行精细控制。Stable Audio能够在A100 GPU上以8秒的速度在44.1kHz下渲染长达95秒的立体信号。尽管其计算效率和快速推断能力,它在两个公共文本转音乐和音频基准测试中表现出色,并且与最先进的模型不同,能够生成具有结构和立体声音的音乐。
本文提出了一种新颖的方法,用于在大型语言模型(LLMs)分布式部署期间降低模型推断延迟。我们的贡献是一种经过优化的推断部署方案,解决了目前最先进的量化内核与张量并行(TP)结合使用时的局限性。我们的方法保留了GPU内存访问模式中的数据局部性,并利用TP的先验知识来减少全局通信。我们展示了在A100和H100 NVIDIA DGX系统上,针对各种TP设置,对于Llama-70B和IBM WatsonX的Granite-20B MLP层问题规模,相对于现有方法最多可实现1.81倍的加速和最多可实现1.78倍的加速。
由于相对较小的开销和提高的效率,N:M结构稀疏性引起了广泛关注。此外,这种稀疏性形式因其较小的表示开销而对减少内存占用具有相当大的吸引力。已经有一些努力为N:M结构稀疏性开发训练配方,主要关注低稀疏度区域(约50%)。然而,使用这些方法训练的模型在面对高稀疏度区域(>80%)时性能往往会下降。在这项工作中,我们研究了现有稀疏训练配方在高稀疏度区域的有效性,并认为这些方法未能保持与低稀疏度区域相媲美的模型质量。我们证明,导致这种差异的重要因素是梯度幅度中引入的噪声水平升高。为了减轻这种不良影响,我们采用衰减机制逐渐限制梯度流向被修剪的元素。我们的方法在高稀疏度区域分别提高了视觉和语言模型的模型质量高达2%和5%。我们还评估了在FLOPs方面模型准确性和训练计算成本之间的权衡。在等训练FLOPs的情况下,我们的方法与传统稀疏训练配方相比表现更好,准确性提高了高达2%。源代码可在以下网址找到:https://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsity。