每日精选AI研究论文及翻译
语言模型(LMs)已经在自然语言处理研究和商业产品中变得无处不在。随着它们在商业上的重要性不断增长,最强大的模型已经变得封闭起来,只能通过专有接口访问,其训练数据、架构和开发的重要细节也未公开。鉴于这些细节对于科学研究这些模型的重要性,包括它们的偏见和潜在风险,我们认为研究社区能够访问功能强大、真正开放的LMs至关重要。为此,本技术报告详细介绍了OLMo的首次发布,这是一种最先进的、真正开放的语言模型,以及用于构建和研究语言建模科学的框架。与大多数先前仅发布模型权重和推理代码的努力不同,我们发布了OLMo和整个框架,包括训练数据、训练和评估代码。我们希望这一发布能赋予并加强开放研究社区,并激发新一波创新。
语言模型已成为处理各种自然语言处理任务的关键技术,然而,关于最佳表现的语言模型是如何开发的许多细节并未报告。特别是,关于它们的预训练语料库的信息很少被讨论:商业语言模型很少提供有关其数据的任何信息;即使是开放模型也很少发布它们训练所用的数据集,或者准确的复制方法。因此,进行某些语言建模研究是具有挑战性的,比如理解训练数据如何影响模型的能力并塑造其限制。为促进关于语言模型预训练的开放研究,我们发布了Dolma,一个包含三万亿标记的英语语料库,由各种网络内容、科学论文、代码、公共领域书籍、社交媒体和百科全书材料混合构建而成。此外,我们开源了我们的数据筛选工具包,以便进一步实验和复现我们的工作。在本报告中,我们记录了Dolma,包括其设计原则、构建细节和内容摘要。我们将这份报告与在Dolma的中间状态上训练语言模型的分析和实验结果交替进行,以分享我们对重要数据筛选实践的学习,包括内容或质量过滤器、去重和多源混合的作用。Dolma已被用于训练OLMo,一个最先进的开放语言模型和框架,旨在构建和研究语言建模科学。
我们介绍了CroissantLLM,这是一个预训练在包含30亿英语和法语标记的数据集上的13亿语言模型,旨在为研究和工业界提供一款高性能、完全开源的双语模型,能够在消费级本地硬件上快速运行。为此,我们首创了训练固有双语模型的方法,采用了1:1的英语到法语预训练数据比例、自定义分词器以及双语微调数据集。我们发布了训练数据集,其中特别包括一个法语数据集,其中包含手动策划、高质量和多样化数据源。为了评估模型在英语之外的性能,我们构建了一个新的基准FrenchBench,其中包括一系列分类和生成任务,涵盖了模型在法语中性能的各个正交方面。此外,基于透明度并促进更多大型语言模型研究,我们发布了代码库和数十个检查点,涵盖了各种模型大小、训练数据分布和训练步骤,以及经过精细调整的Chat模型和强大的翻译模型。我们通过FMTI框架评估了我们的模型,并验证了81%的透明度标准,远远超过大多数开放倡议的分数。这项工作丰富了自然语言处理领域,摆脱了以往以英语为中心的工作,以加强我们对语言模型中多语言性的理解。
理解上下文是理解人类语言的关键,这是大型语言模型(LLMs)越来越多地展示出的令人印象深刻的能力。然而,尽管LLMs的评估涵盖了自然语言处理领域内的各个领域,但对探究它们理解上下文特征的语言能力的关注有限。本文通过调整现有数据集,引入了一个上下文理解基准,以适应生成模型的评估。这个基准包括四个不同的任务和九个数据集,所有这些数据集都包含了旨在评估模型理解上下文能力的提示。首先,我们在上下文学习预训练情景下评估LLMs的性能。实验结果表明,与最先进的微调模型相比,预训练的密集模型在理解更微妙的上下文特征方面存在困难。其次,随着LLM压缩在研究和实际应用中的重要性日益增加,我们评估了在上下文学习设置下量化模型的上下文理解能力。我们发现,3位后训练量化会导致在我们的基准测试中性能降低的程度不同。我们对这些情景进行了广泛的分析,以证实我们的实验结果。
我们提供了有效探索在收集人类反馈以改进大型语言模型方面的重要好处的证据。在我们的实验中,一个代理顺序生成查询,同时将奖励模型拟合到收到的反馈中。我们表现最佳的代理使用双 Thompson 采样生成查询,不确定性由认知神经网络表示。我们的结果表明,有效探索使性能水平高,查询数量大大减少。此外,不确定性估计和探索方案的选择起着至关重要的作用。
我们介绍了SymbolicAI,这是一个多功能且模块化的框架,采用基于逻辑的方法来进行概念学习和流程管理,用于生成过程。SymbolicAI通过将大型语言模型(LLMs)视为语义解析器,执行基于自然语言和形式语言指令的任务,从而实现了生成模型与各种求解器的无缝集成,从而弥合了符号推理与生成人工智能之间的差距。我们利用概率编程原则来解决复杂任务,并利用可微分和经典编程范式及其各自的优势。该框架引入了一组多态的、组合的、自引用的操作,用于数据流操作,将LLM输出与用户目标对齐。因此,我们可以在各种基础模型之间进行转换,这些模型具有零次和少次学习能力,以及专门的、经过精细调整的模型或求解器,擅长解决特定问题。反过来,该框架促进了可解释计算图的创建和评估。最后,我们介绍了一种用于评估这些计算图的质量度量及其经验分数,并提出了一个基准,用于比较各种最先进的LLMs在一组复杂工作流中的表现。我们将这种经验分数称为“通过交叉相似性进行关系轨迹评估的向量嵌入”,简称为VERTEX分数。下方链接了该框架的代码库和基准。
机器遗忘已经成为一种新的范式,可以有意地从给定模型中忘记数据样本,以符合严格的法规要求。然而,现有的机器遗忘方法主要集中在分类模型上,对于生成模型的遗忘领域相对未被探索。本文作为一座桥梁,填补了这一空白,提供了一个统一的机器遗忘框架,专门针对图像到图像生成模型。在这个框架内,我们提出了一个计算效率高的算法,基于严格的理论分析,展示了对保留样本几乎没有性能降级,同时有效地从遗忘样本中删除信息。对两个大规模数据集ImageNet-1K和Places-365的实证研究进一步表明,我们的算法不依赖于保留样本的可用性,这进一步符合数据保留政策。据我们所知,这项工作是首个专门为图像到图像生成模型量身定制的机器遗忘的系统性、理论性、实证性探索。我们的代码可在https://github.com/jpmorganchase/l2l-generator-unlearning找到。
将语言模型与人类偏好对齐的常见方法是首先从偏好数据中学习奖励模型,然后使用该奖励模型来更新语言模型。我们研究了在这一方法中出现的两个密切相关的问题。首先,奖励模型的任何单调转换都会保持偏好排序;是否存在比其他选择更好的选择?其次,我们经常希望将语言模型与多个属性对齐:我们应该如何组合多个奖励模型?通过对齐过程的概率解释,我们确定了一种自然的转换选择,适用于从Bradley-Terry偏好模型学习奖励的常见情况。这种衍生的转换具有两个重要特性。首先,它强调改善表现不佳的输出,而不是已经得分良好的输出。这有助于减轻欠拟合(其中一些提示没有得到改善)和奖励欺骗(模型学习利用奖励模型的错误规范化)。其次,它通过将求和与逻辑连接相关联,实现了奖励的原则性聚合:转换后的奖励之和对应于输出在所有测量属性上都“好”的概率,我们给出了精确的定义。使用RLHF对齐语言模型以既有帮助又无害的实验显示,与基线(未转换)方法相比,取得了显著的改进。
我们介绍了摊销文本到网格(AToM),这是一个跨多个文本提示进行优化的前馈文本到网格框架。与现有的文本到3D方法相比,这些方法通常需要耗时的逐提示优化,并且通常输出多边形网格之外的表示形式不同,AToM可以在不到1秒的时间内直接生成高质量的带纹理网格,训练成本降低约10倍,并且可以泛化到未见过的提示。我们的关键思想是一种新颖的基于三平面的文本到网格架构,采用两阶段摊销优化策略,确保稳定训练并实现可扩展性。通过在各种提示基准上进行大量实验,AToM在DF415数据集中的准确性比最先进的摊销方法高出4倍以上,并产生更具区分度和更高质量的3D输出。AToM表现出很强的泛化能力,为未见过的插值提示提供细粒度的3D资产,而在推断过程中无需进一步优化,这与逐提示解决方案不同。
本文介绍了EE-Tuning,这是一种轻量且经济的解决方案,用于训练/调整早期退出的大型语言模型(LLMs)。与完全参数预训练的常见方法相比,EE-Tuning通过在参数高效的方式下调整任何预训练(可能是微调过的)标准LLM,并增加额外的早期退出层,从而需要较少的计算资源和训练数据。我们对EE-Tuning的实现通过广泛的性能优化实现了出色的训练效率,并且由于与3D并行性的完全兼容性,具有良好的可扩展性。系统化实验的结果验证了EE-Tuning的有效性,证实了在有限的训练预算下可以实现有效的早期退出LLM推断。为了让社区能够使用早期退出LLMs,我们在https://github.com/pan-x-c/EE-LLM发布了EE-Tuning的实现源代码。