每日精选AI研究论文及翻译
训练大型语言模型(LLMs)存在着重要的内存挑战,主要是由于权重和优化器状态的不断增大。常见的内存减少方法,如低秩适应(LoRA),在每一层中向冻结的预训练权重添加一个可训练的低秩矩阵,减少可训练参数和优化器状态。然而,这些方法通常在预训练和微调阶段表现不佳,因为它们将参数搜索限制在低秩子空间,并改变训练动态,可能需要完整秩的热启动。在这项工作中,我们提出了梯度低秩投影(GaLore),这是一种允许完全参数学习但比LoRA等常见低秩适应方法更节省内存的训练策略。我们的方法在优化器状态中将内存使用减少了高达65.5%,同时在使用C4数据集的LLaMA 1B和7B架构进行预训练,以及在GLUE任务上对RoBERTa进行微调时,保持了效率和性能。我们的8位GaLore进一步将优化器内存减少了高达82.5%,总训练内存减少了63.3%,与BF16基线相比。值得注意的是,我们首次展示了在具有24GB内存的消费级GPU上(例如NVIDIA RTX 4090)进行7B模型的预训练的可行性,而无需模型并行、检查点或卸载策略。
本文介绍了SaulLM-7B,这是一个专为法律领域定制的大型语言模型(LLM)。拥有70亿参数的SaulLM-7B是第一个专门设计用于法律文本理解和生成的LLM。以Mistral 7B架构为基础,SaulLM-7B在英语法律语料库上进行训练,涵盖超过30亿个标记。SaulLM-7B在理解和处理法律文件方面表现出最先进的能力。此外,我们提出了一种新颖的指导微调方法,利用法律数据集进一步提升SaulLM-7B在法律任务中的性能。SaulLM-7B采用CC-BY-SA-4.0许可证发布。
随着大型语言模型(LLMs)在性能上不断取得进展,其规模显著扩大,当前的LLMs包含数十亿甚至数万亿个参数。然而,在本研究中,我们发现许多LLMs的层之间存在高度相似性,而一些层在网络功能中起到微不足道的作用。基于这一观察,我们定义了一个称为“块影响”(BI)的度量标准,用于衡量LLMs中每个层的重要性。然后,我们提出了一种简单的修剪方法:层删除,即根据它们的BI分数直接删除LLMs中的冗余层。实验证明,我们称之为ShortGPT的方法在模型修剪方面明显优于先前的最先进方法。此外,ShortGPT与量化等方法正交,可以进一步减少参数和计算量。通过简单的层删除而非更复杂的修剪技术实现更好结果的能力,表明模型架构中存在高度冗余。
本文介绍了PixArt-\Sigma,一种Diffusion Transformer模型(DiT),能够直接生成4K分辨率的图像。PixArt-\Sigma相比其前身PixArt-\alpha有了显著进步,提供了质量更高且与文本提示更好对齐的图像。PixArt-\Sigma的一个关键特点是其训练效率。利用PixArt-\alpha的基础预训练,它通过融合更高质量的数据从“较弱”的基线发展为“更强”的模型,这一过程我们称之为“弱到强训练”。PixArt-\Sigma的进步有两个方面:(1)高质量训练数据:PixArt-\Sigma融合了优质的图像数据,并配以更精确和详细的图像标题。(2)高效Token压缩:我们在DiT框架内提出了一个新颖的注意力模块,可以压缩键和值,显著提高效率,并促进超高分辨率图像生成。由于这些改进,PixArt-\Sigma在模型尺寸明显更小(0.6B参数)的情况下,实现了优越的图像质量和用户提示遵从能力,远胜于现有的文本到图像扩散模型,如SDXL(2.6B参数)和SD Cascade(5.1B参数)。此外,PixArt-\Sigma生成4K图像的能力支持高分辨率海报和壁纸的制作,有效地增强了电影和游戏等行业高质量视觉内容的生产。
我们提出了一种方法,通过在标记级别交替生成,教授多个大型语言模型(LLM)进行协作。我们将决定哪个LLM生成下一个标记的过程建模为一个潜变量。通过在我们的潜变量模型下优化训练集的边际似然,基础LLM会自动学习何时生成自身以及何时调用其中一个“助手”语言模型进行生成,而无需直接监督。在解码过程中进行标记级别的协作允许以适合特定任务的方式融合每个模型的专业知识。我们的协作解码在跨领域设置中特别有用,其中通用基础LLM学会调用领域专家模型。在遵循指令、领域特定问答和推理任务中,我们展示了联合系统的性能超过了单个模型。通过对学习到的潜在决策进行定性分析,我们展示了使用我们方法训练的模型表现出多种有趣的协作模式,例如模板填充。我们的代码可在https://github.com/clinicalml/co-llm 上找到。
我们提出了使用屏幕截图的强监督预训练(S4)- 一种新颖的视觉-语言模型预训练范式,利用大规模网络截图渲染数据。使用网络截图可以解锁大量视觉和文本线索,这些线索在使用图像-文本对时是不存在的。在S4中,我们利用HTML元素的固有树形结构层次和空间定位,精心设计了10个预训练任务,使用大规模注释数据。这些任务类似于不同领域的下游任务,并且注释获取成本低廉。我们证明,与当前截图预训练目标相比,我们创新的预训练方法显著提升了图像到文本模型在九个不同且流行的下游任务中的性能-在表格检测上提高了高达76.1%,在小部件字幕上至少提高了1%。
价值函数是深度强化学习(RL)的核心组成部分。这些函数由神经网络参数化,使用均方误差回归目标进行训练,以匹配自举目标值。然而,将使用回归的基于值的RL方法扩展到大型网络,如高容量Transformer,一直是具有挑战性的。这种困难与监督学习形成鲜明对比:通过利用交叉熵分类损失,监督方法已经可靠地扩展到大规模网络。观察到这种差异,在本文中,我们调查了是否通过在训练价值函数时使用分类代替回归,也可以简单地改善深度RL的可扩展性。我们证明,使用分类交叉熵训练的价值函数在各种领域中显著提高了性能和可扩展性。这些领域包括:使用SoftMoEs在Atari 2600游戏上的单任务RL,使用大规模ResNets在Atari上的多任务RL,使用Q-transformers进行机器人操纵,无需搜索即可下棋,以及使用高容量Transformer进行语言代理Wordle任务,在这些领域取得了最先进的结果。通过仔细分析,我们表明,分类交叉熵的好处主要源于其减轻基于值的RL固有问题的能力,如嘈杂的目标和非稳态性。总的来说,我们认为,简单地将训练价值函数的方法转变为使用分类交叉熵,可以在几乎没有成本的情况下显著改善深度RL的可扩展性。
大规模序列建模已经引发了快速进展,现在已延伸至生物学和基因组学。然而,建模基因组序列引入了挑战,如需要建模长程令牌相互作用、基因组上游和下游区域的影响,以及DNA的反向互补性(RC)。在这里,我们提出了一种受到这些挑战激励的架构,它基于长程Mamba块,并将其扩展为支持双向性的BiMamba组件,以及支持RC等变性的MambaDNA块。我们以MambaDNA作为Caduceus的基础,这是第一个RC等变双向长程DNA语言模型系列,我们引入了预训练和微调策略,产生了Caduceus DNA基础模型。Caduceus在下游基准测试中优于先前的长程模型;在具有挑战性的长程变异效应预测任务中,Caduceus的表现超过了不利用双向性或等变性的规模大10倍的模型。
模仿学习为教授机器人灵巧技能提供了一种高效的方式;然而,学习复杂技能的鲁棒性和泛化性通常需要大量的人类演示。为了解决这一具有挑战性的问题,我们提出了3D扩散策略(DP3),这是一种新颖的视觉模仿学习方法,将3D视觉表示的强大融入到扩散策略中,这是一类条件动作生成模型。DP3的核心设计在于利用紧凑的3D视觉表示,从稀疏点云中提取,使用高效的点编码器。在我们涉及72个模拟任务的实验中,DP3仅使用10个演示就成功处理了大多数任务,并且相对基线方法有55.3%的相对改进。在4个真实机器人任务中,DP3表现出精确控制,成功率高达85%,每项任务仅需40个演示,并展现出在空间、视角、外观和实例等各个方面的出色泛化能力。有趣的是,在真实机器人实验中,DP3很少违反安全要求,而基线方法经常需要人类干预。我们的广泛评估突显了3D表示在现实世界机器人学习中的关键重要性。视频、代码和数据可在https://3d-diffusion-policy.github.io 上获取。
许多在线内容门户网站允许用户提出问题以增进他们的理解(例如,针对讲座)。虽然信息检索(IR)系统可以为这类用户查询提供答案,但它们并未直接帮助内容创作者——比如希望改进内容的讲师——识别导致用户提出这些问题的段落。我们引入了回溯任务,即系统检索最有可能导致用户查询的文本段落。我们为三个现实世界领域形式化了回溯的重要性,以改进内容传递和沟通:在讲座领域理解学生困惑的原因,新闻文章领域读者的好奇心,以及对话领域用户的情感。我们评估了流行的信息检索方法和语言建模方法的零-shot性能,包括双编码器、重新排序和基于可能性的方法以及ChatGPT。传统的IR系统检索语义相关信息(例如,针对查询“多次投影是否仍然导致相同点?”提供有关“投影矩阵”的详细信息),但它们经常错过因果相关的上下文(例如,讲师陈述“投影两次得到的答案与一次投影相同”)。我们的结果显示,在回溯方面仍有改进空间,并需要新的检索方法。我们希望我们的基准测试有助于改进未来用于回溯的检索系统,推动改进内容生成并识别影响用户查询的语言触发器的系统的产生。我们的代码和数据已开源:https://github.com/rosewang2008/backtracing。