每日精选AI研究论文及翻译
BigCode项目是一个开放的科学合作项目,专注于负责任地开发用于代码的大型语言模型(Code LLMs),介绍了StarCoder2。我们与Software Heritage(SWH)合作,在他们的源代码存档的数字共享资源之上构建了The Stack v2。除了SWH存储库涵盖的619种编程语言之外,我们还精心选择其他高质量的数据源,如GitHub拉取请求、Kaggle笔记本和代码文档。这导致了一个训练集,比第一个StarCoder数据集大4倍。我们使用3.3到4.3万亿标记对StarCoder2模型进行了3B、7B和15B参数的训练,并在一套全面的Code LLM基准测试中进行了彻底评估。我们发现我们的小型模型StarCoder2-3B在大多数基准测试中优于其他相似规模的Code LLM,并且也优于StarCoderBase-15B。我们的大型模型StarCoder2-15B在性能上明显优于其他相近规模的模型。此外,它与CodeLlama-34B相匹配或优于后者,后者是其两倍大的模型。虽然DeepSeekCoder-33B是高资源语言代码补全的表现最佳模型,但我们发现StarCoder2-15B在数学和代码推理基准测试以及一些低资源语言上的表现优于它。我们通过OpenRAIL许可证提供模型权重,并通过发布源代码数据的SoftWare Heritage持久标识符(SWHIDs)确保了对训练数据的完全透明。
循环神经网络(RNN)具有快速推断和对长序列的高效扩展能力,但训练困难且难以扩展。我们提出了Hawk,一种带有门控线性循环的RNN,以及Griffin,一种混合模型,将门控线性循环与局部注意力相结合。Hawk在下游任务中超过了Mamba的表现,而Griffin在训练时使用的标记数量仅为Llama-2的六分之一,但表现相当。我们还展示了Griffin能够在训练中未见过的显著更长序列上进行外推。我们的模型在训练时与Transformer的硬件效率相匹配,在推断过程中具有更低的延迟和显著更高的吞吐量。我们将Griffin扩展至140亿参数,并解释了如何对我们的模型进行有效的分布式训练分片。
传统的深度学习经常忽视字节,这是数字世界的基本单位,所有形式的信息和操作都是以二进制格式编码和操作的。受自然语言处理中下一个标记预测成功的启发,我们引入了bGPT,这是一个具有下一个字节预测的模型,用于模拟数字世界。bGPT在各种模态中,包括文本、音频和图像方面的性能与专用模型相匹敌,并为预测、模拟和诊断算法或硬件行为提供了新的可能性。它几乎无缺地复制了将符号音乐数据转换的过程,在将ABC记谱转换为MIDI格式时,实现了每字节0.0011比特的低错误率。此外,bGPT在模拟CPU行为方面表现出色,执行各种操作的准确率超过99.99%。利用下一个字节预测,像bGPT这样的模型可以直接从大量的二进制数据中学习,有效地模拟数字世界复杂的模式。
数据和标注的质量上限了下游模型的质量。虽然存在大量的文本语料库和图像文本对,但高质量的视频文本数据更难收集。首先,手动标注更耗时,因为需要注释者观看整个视频。其次,视频具有时间维度,由多个场景堆叠在一起,并展示多个动作。因此,为了建立具有高质量字幕的视频数据集,我们提出了一种自动方法,利用多模态输入,如文本视频描述、字幕和单独的视频帧。具体而言,我们从公开可用的高清视频库HD-VILA-100M中策划了380万个高分辨率视频。然后,我们将它们分割成语义一致的视频片段,并应用多个跨模态教师模型为每个视频获取字幕。接下来,我们在一个小子集上微调检索模型,手动选择每个视频的最佳字幕,然后在整个数据集中使用该模型选择最佳字幕作为标注。通过这种方式,我们获得了7000万个视频,配有高质量文本字幕。我们将该数据集称为Panda-70M。我们展示了所提出数据集在三个下游任务上的价值:视频字幕生成、视频和文本检索以及文本驱动的视频生成。在所提出数据上训练的模型在所有任务的大多数指标上得分明显更好。
我们将真实世界中的人形控制视为一个下一个标记预测问题,类似于语言中预测下一个单词。我们的模型是一个经由传感器运动轨迹的自回归预测训练的因果Transformer。为了考虑数据的多模态性,我们以模态对齐的方式进行预测,并针对每个输入标记从相同模态预测下一个标记。这种通用公式使我们能够利用具有缺失模态的数据,例如没有动作的视频轨迹。我们在来自先前神经网络策略、基于模型的控制器、动作捕捉数据和人类YouTube视频的模拟轨迹集合上训练我们的模型。我们展示了我们的模型使一个全尺寸的人形机器人能够在旧金山进行零样本行走。我们的模型可以在仅训练了27小时的行走数据的情况下转移到真实世界,并且可以推广到训练中未见过的命令,如向后行走。这些发现表明通过生成建模传感运动轨迹可能是学习具有挑战性的真实世界控制任务的一个有前途的途径。
我们介绍了MOSAIC,这是一个用于家庭机器人执行复杂协作任务的模块化架构,例如与日常用户一起烹饪。MOSAIC与人类紧密合作,使用自然语言与用户交互,协调多个机器人,并管理日常物品的开放词汇表。在其核心,MOSAIC采用模块化:它利用多个大规模预训练模型来执行通用任务,如语言和图像识别,同时使用为特定任务设计的简化模块进行控制。我们在60个端到端试验中对MOSAIC进行了广泛评估,在这些试验中,两个机器人与一个人类用户合作烹饪6种食谱的组合。我们还对各个模块进行了广泛测试,包括180个视觉动作拾取实验,60个人体运动预测实验,以及46次在线用户对任务规划器的评估。我们展示了MOSAIC能够通过与真实人类用户一起运行整个系统来高效地与人类合作,完成了6种不同食谱的68.3%(41/60)协作烹饪试验,子任务完成率为91.6%。最后,我们讨论了当前系统的局限性以及该领域中令人兴奋的开放挑战。该项目的网站位于https://portal-cornell.github.io/MOSAIC/。
扩散模型在合成高质量图像方面取得了巨大成功。然而,利用扩散模型生成高分辨率图像仍然具有挑战性,因为巨大的计算成本导致交互应用的延迟过高。本文提出了DistriFusion来解决这一问题,通过利用多个GPU之间的并行性。我们的方法将模型输入分割为多个块,并将每个块分配给一个GPU。然而,简单地实现这样的算法会破坏块之间的交互并丢失保真度,而引入这样的交互将带来巨大的通信开销。为了克服这一困境,我们观察到相邻扩散步骤的输入之间存在很高的相似性,并提出了位移块并行性,利用了扩散过程的顺序性质,通过重用先前时间步骤中预先计算的特征图为当前步骤提供上下文。因此,我们的方法支持异步通信,可以通过计算进行流水线处理。大量实验证明,我们的方法可以应用于最近的Stable Diffusion XL,无需降低质量,并在八个NVIDIA A100上相较于一个实现高达6.1倍的加速。我们的代码公开在https://github.com/mit-han-lab/distrifuser。
最近的研究表明,基于注意力机制的语言模型在召回方面表现出色,即在先前上下文中看到的标记中生成的能力。然而,在推理过程中,基于注意力的模型的效率受到KV-缓存的内存消耗限制。在这项研究中,我们探讨了是否可以提高语言模型的效率(例如通过减少内存消耗)而不会影响召回能力。通过在广泛的架构上应用实验和理论,我们确定了模型状态大小和召回能力之间的关键权衡。我们发现,替代注意力的高效方法(例如H3、Mamba、RWKV)保持了固定大小的循环状态,但在召回方面存在困难。我们提出了一种名为BASED的简单架构,结合了线性和滑动窗口注意力。通过改变BASED的窗口大小和线性注意力特征维度,我们可以调整状态大小并遍历召回-内存权衡曲线的帕累托前沿,一端恢复了注意力的完整质量,另一端则是注意力替代方案的小状态大小。我们训练了多达13亿参数的语言模型,并展示了BASED在困惑度上与最强的次二次模型(例如Mamba)相匹配,并在真实世界的召回密集任务中表现出比它们高6.22个准确度点。线性注意力的实现通常不如经过优化的标准注意力实现高效。为了使BASED具有竞争力,我们开发了IO感知算法,使其在生成1024个标记时,使用13亿参数模型的语言生成比FlashAttention-2高出24倍的吞吐量。此工作的代码可在以下网址找到:https://github.com/HazyResearch/based。
大型语言模型在生成和优化代码方面表现出巨大潜力。广泛使用的采样方法,如核采样,增加了生成的多样性,但在低温度下往往会产生重复的样本,在高温度下会产生不连贯的样本。此外,温度系数必须针对每个任务进行调整,限制了其可用性。我们提出了优先采样,这是一种简单且确定性的采样技术,可按照模型的置信度产生有序的独特样本。每个新样本都会扩展增广搜索树中具有最高概率的未扩展标记。此外,优先采样支持基于正则表达式的生成,提供可控且结构化的探索过程。优先采样在任意数量的样本上优于核采样,将原始模型的性能从2.87%提升至5%以上。此外,仅需30个样本,优先采样就优于用于生成原始模型训练标签的自动调谐器。
潜在一致性模型(LCM)将一致性模型扩展到潜在空间,并利用引导一致性蒸馏技术,在加速文本到图像合成方面取得了令人印象深刻的性能。然而,我们观察到LCM在生成既清晰又详细复杂的图像方面存在困难。为了解决这一局限性,我们首先深入探讨并阐明潜在原因。我们的调查确定主要问题源于三个不同领域的错误。因此,我们引入了轨迹一致性蒸馏(TCD),其中包括轨迹一致性函数和策略性随机抽样。轨迹一致性函数通过扩大自一致性边界条件的范围,赋予TCD准确追踪概率流ODE整个轨迹的能力,从而减少蒸馏错误。此外,策略性随机抽样专门设计用于规避多步一致性抽样中积累的错误,精心定制以补充TCD模型。实验证明,TCD不仅显著提高了低NFE时图像质量,而且在高NFE时与教师模型相比产生了更详细的结果。
通过扩散模型进行新视角合成已经展现出生成多样且高质量图像的显著潜力。然而,在这些主流方法中图像生成的独立过程导致了在保持多视角一致性方面的挑战。为了解决这个问题,我们引入了ViewFusion,这是一种新颖的、无需训练的算法,可以无缝地集成到现有预训练的扩散模型中。我们的方法采用自回归方法,隐式地利用先前生成的视角作为下一个视角生成的上下文,确保在新视角生成过程中具有强大的多视角一致性。通过一个融合已知视角信息的扩散过程,通过插值去噪,我们的框架成功地将单视角条件模型扩展到多视角条件设置中,而无需进行额外的微调。大量的实验结果展示了ViewFusion在生成一致且详细的新视角方面的有效性。