每日精选AI研究论文及翻译
我们提出了QLoRA,一种高效的微调方法,可以降低内存使用量,从而能够在单个48GB GPU上微调一个65B参数模型,同时保持完整的16位微调任务性能。QLoRA通过将梯度反向传播到一个冻结的、4位量化的预训练语言模型,进而进入低秩适配器(LoRA)。我们的最佳模型系列,命名为Guanaco,在Vicuna基准测试中胜过了所有先前公开发布的模型,达到了ChatGPT性能水平的99.3%,而仅需要在单个GPU上进行24小时的微调。QLoRA引入了许多创新来节省内存而不牺牲性能:(a)4位NormalFloat(NF4),这是一种对于正态分布权重来说在信息论上是最优的新数据类型;(b)双量化,通过量化量化常数来减少平均内存占用;以及(c)分页优化器来管理内存峰值。我们使用QLoRA来微调1000多个模型,并对8个指令数据集、多个模型类型(LLaMA、T5)以及以往难以运行的模型规模(例如33B和65B参数模型)的指令遵循和聊天机器人性能进行了详细分析。我们的结果表明,在小规模高质量数据集上使用QLoRA微调可以达到最先进的结果,即使使用比以前最先进模型更小的模型。我们提供了基于人类和GPT-4评估的聊天机器人性能的详细分析,表明GPT-4评估是一种廉价且合理的人类评估替代方案。此外,我们发现当前的聊天机器人基准测试并不可信,无法准确评估聊天机器人的性能水平。通过柠檬挑选的分析展示了Guanaco相对于ChatGPT的失败之处。我们发布了所有模型和代码,包括用于4位训练的CUDA核心。
在指导数据上进行微调已被广泛验证为实现类似ChatGPT的聊天语言模型的有效实践。尽管直接增加数据的多样性和质量看似简单,但却有很大机会提高性能。本文旨在进一步提高开源模型的上限。我们首先提供了一个系统设计的、多样化的、信息丰富的大规模指导对话数据集UltraChat,其中不涉及人类查询。我们的目标是捕捉人类可能与AI助手进行的各种互动,并采用全面的框架迭代生成多轮对话。UltraChat包含150万条高质量的多轮对话,涵盖了广泛的主题和指导。我们对UltraChat的统计分析显示其在各种关键指标上的优越性,包括规模、平均长度、多样性、连贯性等,巩固了其作为领先的开源数据集的地位。基于UltraChat,我们对LLaMA模型进行微调,创建了一个强大的对话模型UltraLLaMA。我们的评估表明,UltraLLaMA在性能上始终优于其他开源模型,包括之前公认的最先进的开源模型Vicuna。该数据集和模型将被公开发布\url{https://github.com/thunlp/UltraChat}。
我们介绍了Goat,这是一个经过微调的LLaMA模型,在一系列算术任务中明显优于GPT-4。在一个合成生成的数据集上进行微调后,Goat在BIG-bench算术子任务上实现了最先进的性能。特别是,零热启动的Goat-7B与少热启动的PaLM-540B实现的准确率相匹敌甚至超越。令人惊讶的是,Goat只通过监督微调就能在大数字加法和减法上实现接近完美的准确性,而以前的预训练语言模型(如Bloom、OPT、GPT-NeoX等)几乎无法做到这一点。我们将Goat的出色性能归因于LLaMA对数字的一致标记化。为了解决更具挑战性的任务,如大数字乘法和除法,我们提出了一种基于可学习性对任务进行分类的方法,并随后通过利用基本算术原理,将不可学习的任务(如多位数乘法和除法)分解为一系列可学习的任务。我们对模型的性能进行了彻底检查,提供了对我们提出的分解步骤有效性的全面评估。此外,Goat-7B可以在具有24GB VRAM GPU的LoRA上轻松训练,为其他研究人员提供了可重现性。我们发布了我们的模型、数据集以及用于数据集生成的Python脚本。
在实际应用中使用语言模型的一个主要风险是它们倾向于产生错误陈述的幻觉。幻觉通常被归因于语言模型中的知识缺口,但我们假设在某些情况下,当语言模型为先前生成的幻觉提供理由时,它们会输出错误声明,而这些声明它们可以单独识别为错误。我们构建了三个问答数据集,其中ChatGPT和GPT-4经常给出错误答案,并提供至少一个错误声明的解释。重要的是,我们发现ChatGPT和GPT-4分别能够识别出自己错误的67%和87%。我们将这一现象称为幻觉滚雪球效应:语言模型对早期错误过度承诺,导致产生更多本不会出现的错误。
语音语言模型(SpeechLMs)仅处理和生成声学数据,而无需文本监督。在这项工作中,我们提出了TWIST,一种使用预训练文本语言模型的热启动来训练SpeechLMs的方法。我们通过自动和人工评估表明,TWIST在各方面均优于从零开始的SpeechLM。我们从实证角度分析了不同模型设计选择的影响,如语音分词器、预训练文本模型和数据集大小。我们发现模型和数据集规模在构建性能更好的SpeechLMs方面都起着重要作用。根据我们的观察,我们提出了目前为止参数数量和训练数据方面最大的SpeechLM。此外,我们还引入了两个StoryCloze文本基准的口语版本,以进一步改进模型评估并推动未来在该领域的研究。语音样本可在我们的网站上找到:https://pages.cs.huji.ac.il/adiyoss-lab/twist/。
Transformer 模型的固定大小上下文使得 GPT 模型无法生成任意长的文本。在本文中,我们介绍了 RecurrentGPT,这是一个基于语言的模拟器,模拟了 RNN 中的循环机制。RecurrentGPT 基于大型语言模型(LLM),如 ChatGPT,并使用自然语言来模拟 LSTM 中的长短期记忆机制。在每个时间步,RecurrentGPT 生成一个文本段落,并分别更新存储在硬盘上的基于语言的长短期记忆和提示信息。这种循环机制使得 RecurrentGPT 能够生成任意长度的文本而不会遗忘。由于人类用户可以轻松观察和编辑自然语言记忆,RecurrentGPT 是可解释的,并且能够实现交互式生成长文本。RecurrentGPT 是迈向超越本地编辑建议的下一代计算机辅助写作系统的初始步骤。除了生成 AI 生成内容(AIGC),我们还展示了使用 RecurrentGPT 作为与消费者直接交互的交互式虚构的可能性。我们将这种生成模型的用法称为“AI 作为内容”(AIAC),我们认为这是传统 AIGC 的下一个形式。我们进一步展示了使用 RecurrentGPT 创作个性化交互式虚构的可能性,这种虚构直接与读者互动,而不是与作者互动。广义上讲,RecurrentGPT 展示了从认知科学和深度学习中流行的模型设计中借鉴思想来提示 LLM 的实用性。我们的代码可在 https://github.com/aiwaves-cn/RecurrentGPT 获取,并且在线演示可在 https://www.aiwaves.org/recurrentgpt 查看。
大型语言模型(LLMs)的崛起已经解锁了该技术在软件开发中的各种应用。特别是,生成式LLMs已被证明可以有效地支持基于人工智能的代码编写工具,能够在编写代码过程中建议整个语句或代码块。在本文中,我们介绍了CodeCompose,这是一个在Meta内部开发和部署的人工智能辅助代码编写工具。CodeCompose基于InCoder LLM,将生成能力与双向性相结合。我们已经将CodeCompose扩展到为Meta的数万名开发人员提供服务,涵盖10多种编程语言和多个编码界面。 我们讨论了在大规模工业环境中部署此类工具时出现的用户体验和指标方面的独特挑战。我们分享了在为CodeCompose做出模型和系统架构设计决策时应对这些挑战的经验。最后,我们展示了CodeCompose的大规模部署中的指标,显示了在一个为期15天的时间窗口内对Meta内部代码编写体验的影响,CodeCompose共提出了450万个建议。定量指标显示,(i)CodeCompose在多种语言中的接受率为22%,(ii)CodeCompose用户键入的代码中有8%是通过接受CodeCompose的代码建议完成的。定性反馈显示,CodeCompose获得了压倒性的91.5%积极评价。除了帮助编写代码,CodeCompose还带来了其他积极的副作用,比如鼓励开发人员生成更多的代码文档,帮助他们发现新的API等。
我们提出了一种新颖的多模态视频基准测试 - 感知测试 - 用于评估预训练的多模态模型(例如Flamingo,BEiT-3或GPT-4)的感知和推理能力。与现有侧重于计算任务(例如分类、检测或跟踪)的基准测试相比,感知测试侧重于技能(记忆、抽象、物理、语义)和推理类型(描述性、解释性、预测性、反事实)跨视频、音频和文本模态,提供了一个全面且高效的评估工具。该基准测试通过零次迁移/少次迁移或有限微调制度,对预训练模型的迁移能力进行探究。为此,感知测试引入了11.6k个现实世界视频,平均长度为23秒,旨在展示感知上有趣的情境,由全球约100名参与者拍摄。这些视频被密集注释为六种类型的标签(多项选择和基于视频的问题回答、物体和点跟踪、时间动作和声音片段),实现了语言和非语言评估。基准测试的微调和验证数据集公开可用(CC-BY许可),另外还提供了一个具有隐式测试数据集的挑战服务器。与最先进的视频问答模型相比,人类基准结果显示了显著的性能差距(91.4%对43.6%),表明在多模态视频理解方面有很大的改进空间。 数据集、基线代码和挑战服务器可在以下网址获取:https://github.com/deepmind/perception_test
将大型语言模型(LLMs)与人类价值观对齐变得日益重要,因为这使得可以对LLMs进行精细的引导,例如让它们遵循给定的指令同时减少其有害性。然而,这需要大量的人类示范和反馈。最近,一些开源模型尝试通过提炼已对齐的LLMs(如InstructGPT或ChatGPT)的数据来复制对齐学习过程。尽管这一过程减少了人类的努力,但构建这些数据集严重依赖于教师模型。在这项工作中,我们提出了一个新颖的框架,用几乎没有人力和不依赖于预对齐LLMs的方式进行对齐学习。首先,我们通过对比不同大小和提示的普通LLMs的响应,使用合成反馈进行奖励建模(RM)。然后,我们利用RM来模拟高质量示范,以训练一个监督策略,并通过强化学习进一步优化模型。我们的最终模型,具有合成训练数据集的对齐语言模型(ALMoST),胜过了包括Alpaca、Dolly和OpenAssistant在内的开源模型,这些模型是基于InstructGPT的输出或人工注释指令进行训练的。我们的规模为7B的模型在使用GPT-4作为评判者进行A/B测试时胜过了12-13B模型,平均获胜率约为75%。
人类通过想象和实践自己的目标来掌握开放式技能库。这种自体学习过程,字面上是追求自生成的(auto)目标(telos),随着目标变得更加多样化、抽象和创造性,变得越来越开放式。由此产生的对可能技能空间的探索得到了跨个体探索的支持:目标表征是在个体之间文化进化并传播的,尤其是使用语言。当前的人工智能代理主要依赖于预定义的目标表征,对应于要么是有界的目标空间(例如指令列表),要么是无界的目标空间(例如可能的视觉输入空间),但很少具备重塑其目标表征、形成新抽象或想象创造性目标的能力。在本文中,我们介绍了一种增强型自体学习代理(LMA3)语言模型,利用预训练的语言模型(LM)来支持多样化、抽象、与人类相关的目标的表征、生成和学习。LM被用作人类文化传播的不完美模型;试图捕捉人类常识、直觉物理和整体兴趣的方面。具体来说,它支持自体架构的三个关键组件:1)描述代理轨迹中实现的目标的重新标记器,2)提出新的高层目标以及它们分解为代理已掌握的子目标的目标生成器,以及3)每个目标的奖励函数。在不依赖任何手工编码的目标表征、奖励函数或课程的情况下,我们展示了LMA3代理在基于文本的任务不可知环境中学会掌握大量多样的技能。
本文对大型语言模型(LLMs)的推理能力进行了彻底调查,重点关注Open Pretrained Transformers(OPT)模型作为这类模型的代表。我们的研究包括在精心策划的推理语料库上微调三种不同规模的OPT,得到两组微调模型:未附解释的OPT-R和附解释的OPT-RE。然后,我们在来自SUPER-NATURALINSTRUCTIONS基准测试的57个领域外任务上评估所有模型,涵盖26种不同的推理技能,利用三种提示技术。通过27种配置和6156次测试评估的全面网格,我们研究微调、提示和规模的维度,以了解解释在不同推理技能上的作用。我们的研究结果显示,在模型微调时,在fewshot示例中加入解释对模型性能没有显著影响,但对未微调的对应模型有积极影响。此外,我们观察到随着在提示和微调过程中逐渐加入解释,分类准确性略微但一致地提高。最后,我们提供了关于哪些技能最能从在微调和提示过程中加入解释中受益的见解,例如数值(+20.4%)和类比(+13.9%)推理,以及表现出微不足道或负面影响的技能。
数据稀缺是高度多语言自然语言处理系统发展中的一个关键问题。然而,对于许多代表性不足的语言(ULs)——即自然语言处理研究在满足用户需求方面特别落后的语言,注释少量数据是可行的。受此启发,我们提出了XTREME-UP,一个基准测试,其特点是:专注于稀缺数据情景而非零-shot;专注于用户中心任务——这些任务被高资源语言使用者广泛采用;以及专注于代表性不足语言,在这些语言中,稀缺数据情景往往最为现实。XTREME-UP评估语言模型在88种代表性不足语言上的能力,涵盖9个关键的用户中心技术,包括ASR、OCR、MT和信息访问任务,这些任务具有普遍实用性。我们为OCR、自动完成、语义解析和音译创建了新数据集,并在其他任务上构建和完善现有数据集。XTREME-UP提供了评估多种建模情景的方法,包括仅文本、多模态(视觉、音频和文本)、监督参数调整和上下文学习。我们在基准测试上评估了常用模型。我们公开所有用于训练和评估模型的代码和脚本。