每日精选AI研究论文及翻译
语言模型(LMs)是自然语言处理的强大工具,但当它们规模较小时,通常难以生成连贯流畅的文本。拥有约1.25亿参数的模型,如GPT-Neo(小)或GPT-2(小),即使经过大量训练,也很少能生成连贯一致的英文文本,甚至只能达到几个词。这引发了一个问题,即仅在更大规模(数亿参数或更多)和复杂架构(具有多层全局注意力)下才能产生连贯的英文文本能力是否会出现。 在这项工作中,我们介绍了TinyStories,这是一个由GPT-3.5和GPT-4生成的短故事的合成数据集,其中仅包含典型3至4岁儿童通常理解的单词。我们展示了TinyStories可用于训练和评估远低于最先进模型(总参数低于1000万)或具有更简单架构(仅有一个变压器块)的LMs,但仍能生成流畅一致、段落丰富多样且几乎完美语法的故事,并展示了推理能力。 我们还引入了一种新的语言模型评估范式:我们提出了一个框架,使用GPT-4来评分这些模型生成的内容,就像这些内容是学生写的故事,由(人类)老师评分一样。这种新范式克服了标准基准测试的缺陷,后者通常要求模型的输出非常结构化,而且为模型提供了多维度评分,为不同能力(如语法、创造力和一致性)提供评分。 我们希望TinyStories能促进LMs的发展、分析和研究,特别是对于资源匮乏或专业领域,并揭示LMs语言能力的出现。
我们提出了SoundStorm,这是一个用于高效、非自回归音频生成的模型。SoundStorm接收AudioLM的语义标记作为输入,并依赖双向注意力和基于置信度的并行解码来生成神经音频编解码器的标记。与AudioLM的自回归生成方法相比,我们的模型在相同质量下产生声音,并具有更高的语音和声学条件一致性,同时速度快两个数量级。SoundStorm在TPU-v4上能够在0.5秒内生成30秒的音频。我们展示了我们的模型通过合成高质量、自然对话片段,从一个带有发言者转换注释和发言者声音的简短提示的抄本中,展示了音频生成扩展到更长序列的能力。
最近的研究表明,暗网和表层网使用的语言存在明显差异。由于对暗网的研究通常需要对域进行文本分析,因此针对暗网的语言模型可能为研究人员提供宝贵的见解。在这项工作中,我们介绍了DarkBERT,这是一个在暗网数据上预训练的语言模型。我们描述了用于训练DarkBERT的文本数据的筛选和编译步骤,以应对暗网的极端词汇和结构多样性,这可能对构建该领域的适当表示造成不利影响。我们评估了DarkBERT及其普通对应模型以及其他广泛使用的语言模型,以验证暗网领域特定模型在各种用例中提供的好处。我们的评估结果显示,DarkBERT的性能优于当前的语言模型,并可能成为未来暗网研究的宝贵资源。
最近的人工智能(AI)系统已经在从围棋到蛋白质折叠等“重大挑战”中取得了里程碑式的进展。检索医学知识、推理并回答医学问题,与医生相媲美的能力长期以来一直被视为这类重大挑战之一。 大型语言模型(LLMs)已经在医学问题回答领域催生了显著进展;Med-PaLM是第一个在MedQA数据集上超过“及格”分数(67.2%)的模型,符合美国医学执照考试(USMLE)风格的问题。然而,这项工作和其他先前的工作表明,尤其是当模型的答案与临床医生的答案进行比较时,仍有很大改进空间。在这里,我们介绍了Med-PaLM 2,它通过利用基础LLM改进(PaLM 2)、医学领域微调以及包括一种新型集成细化方法在内的提示策略来弥合这些差距。 Med-PaLM 2在MedQA数据集上获得了高达86.5%的分数,比Med-PaLM提高了超过19%,创造了新的最新技术水平。我们还观察到在MedMCQA、PubMedQA和MMLU临床主题数据集中,表现接近或超过最新技术水平。 我们对与临床应用相关的长篇问题进行了详细的人类评估。在对1066个消费者医学问题进行成对比较排名时,医生在涉及临床实用性的九个轴线上,更倾向于Med-PaLM 2的答案,而非其他医生的答案(p < 0.001)。我们还观察到,在240个长篇“对抗性”问题的新数据集上,与Med-PaLM相比,在每个评估轴线上都有显著改进(p < 0.001),以探究LLM的局限性。 虽然进一步的研究有必要验证这些模型在实际环境中的有效性,但这些结果突显了在医学问题回答领域朝着医生水平表现的快速进展。
在广泛源代码预训练的大型语言模型(LLMs)已经在代码智能方面取得了显著进展。然而,现有的代码LLMs在架构和预训练任务方面存在两个主要限制。首先,它们通常采用特定架构(仅编码器或仅解码器)或依赖统一的编码器-解码器网络用于不同的下游任务。前一范式受应用中的不灵活性限制,而在后者中,模型被视为所有任务的单一系统,导致在某些任务的子集上性能不佳。其次,它们通常采用有限的预训练目标,这些目标可能与某些下游任务不相关,因此导致性能显著下降。为了解决这些限制,我们提出了“CodeT5+”,这是一系列用于代码的编码器-解码器LLMs,其中组件模块可以灵活组合以适应各种下游代码任务。这种灵活性是通过我们提出的混合预训练目标来实现的,以减轻预训练-微调差异。这些目标涵盖了跨度去噪、对比学习、文本-代码匹配和因果LM预训练任务,涵盖了单模态和双模态多语言代码语料库。此外,我们建议使用冻结的现成LLMs初始化CodeT5+,而不是从头开始训练,以有效扩展我们的模型,并探索指令微调以与自然语言指令对齐。我们在不同设置下对CodeT5+进行了广泛评估,包括零-shot、微调和指令微调。我们观察到在各种与代码相关的任务中,如代码生成和完成、数学编程以及文本到代码检索任务上,CodeT5+表现出了最先进的模型性能。特别是,我们经过指令微调的CodeT5+ 16B在HumanEval代码生成任务上取得了与其他开放代码LLMs相比的新的最先进结果。
大型语言模型(LLMs)如GPT-3和GPT-4非常强大,但它们的权重通常不公开,并且其巨大的体积使得这些模型难以使用常规硬件进行调整。因此,有效地使用大规模监督数据对这些模型进行调整可能具有挑战性。作为一种替代方案,基于上下文的学习(ICL)由于上下文长度限制,只能使用少量监督示例。在本文中,我们提出了超级基于上下文的学习(SuperICL),它允许黑盒LLMs与本地微调的较小模型配合工作,从而在监督任务上表现出更优异的性能。我们的实验表明,SuperICL可以提高性能,超越最先进的微调模型,同时解决基于上下文学习的不稳定问题。此外,SuperICL可以增强较小模型的能力,如多语言性和可解释性。
基于文本引导的人体运动生成引起了广泛关注,因为它在动画和机器人技术领域具有重要应用。最近,扩散模型在运动生成中的应用使生成的动作质量得以提高。然而,现有方法受制于对相对规模较小的运动捕捉数据的依赖,导致在更多样化的、真实环境中的提示上表现不佳。在本文中,我们介绍了Make-An-Animation,这是一个文本条件的人体运动生成模型,它能够从大规模图像文本数据集中学习更多样化的姿势和提示,从而显著提高了性能,超越了先前的工作。Make-An-Animation分为两个阶段进行训练。首先,我们在一个精心策划的大规模数据集上进行训练,该数据集由从图像文本数据集中提取的(文本,静态伪姿势)对组成。其次,我们在运动捕捉数据上进行微调,添加额外的层来建模时间维度。与先前用于运动生成的扩散模型不同,Make-An-Animation采用了类似于最近的文本到视频生成模型的U-Net架构。人类对运动逼真度和与输入文本的对齐性的评估显示,我们的模型在文本到运动生成上达到了最先进的性能水平。
扩散模型由于其出色的性能在图像生成领域引起了广泛关注。最近,它们的成功已经扩展到文本生成领域,通过同时生成序列中的所有标记。然而,自然语言相比图像表现出更明显的顺序依赖性,大多数现有的语言模型是使用从左到右的自回归方法进行训练的。为了考虑自然语言固有的顺序特性,我们引入了自回归扩散(AR-Diffusion)。AR-Diffusion 确保右侧标记的生成取决于左侧生成的标记,这一机制通过采用动态数量的去噪步骤来实现,这些步骤根据标记位置的不同而变化。这导致左侧的标记经历的去噪步骤较右侧的标记较少,从而使它们能够更早生成,并随后影响右侧标记的生成。在包括文本摘要、机器翻译和常识生成在内的各种文本生成任务的一系列实验中,AR-Diffusion 明显展示了优于现有扩散语言模型的优势,并且在实现可比较结果时可以快100倍至600倍。我们的代码将会公开发布。
我们提出了符号微调 - 在上下文输入-标签对上微调语言模型,其中自然语言标签(例如,“正面/负面情感”)被任意符号(例如,“foo/bar”)替换。符号微调利用了这样的直觉,即当模型无法使用说明或自然语言标签来解决任务时,必须通过学习输入-标签映射来实现。 我们在Flan-PaLM模型上进行了符号微调的实验,参数量高达540B,并观察到在各种设置下的好处。首先,符号微调提升了在未见过的上下文学习任务上的性能,并且对于指令不明确或没有自然语言标签的提示更加稳健。其次,经过符号微调的模型在算法推理任务上表现更加强大,List Functions基准测试上性能提高了高达18.2%,Simple Turing Concepts基准测试上性能提高了高达15.3%。最后,经过符号微调的模型在跟随上下文中呈现的反转标签方面显示出了很大的改进,这意味着它们更能够利用上下文信息来覆盖先前的语义知识。
会话式推荐系统(CRS)通过实现用户与系统进行实时多轮对话,为用户提供了更高的透明度和控制权。最近,大型语言模型(LLMs)展现出了与世界知识和常识推理相结合的自然对话能力,释放了这一范式的潜力。然而,在CRS中有效利用LLMs会带来新的技术挑战,包括正确理解和控制复杂对话以及从外部信息源中检索信息。这些问题受到庞大、不断发展的项目语料库和缺乏用于训练的对话数据的影响。在本文中,我们提供了构建端到端大规模CRS的路线图,利用LLMs。具体来说,我们提出了用户偏好理解、灵活对话管理和可解释推荐的新实现,作为由LLMs驱动的集成架构的一部分。为了提高个性化,我们描述了LLM如何消化可解释的自然语言用户资料,并将其用于调节会话级上下文。为了克服在没有现有生产CRS的情况下的对话数据限制,我们提出了构建可控LLM用户模拟器的技术,以生成合成对话。作为概念验证,我们介绍了RecLLM,一个基于LaMDA构建的YouTube视频的大规模CRS,并通过一些示例对话展示了其流畅性和多样功能性。
在自然语言处理领域,上下文学习引起了广泛关注,其中预训练语言模型通过上下文中的任务示例和指令学习执行任务。然而,由于语言模型没有明确训练以在上下文中学习,上下文学习的能力并未得到充分利用。为此,我们提出了PICL(面向上下文学习的预训练)框架,通过在通用纯文本语料库中对模型进行“内在任务”的大规模预训练,使用简单的语言建模目标来增强语言模型的上下文学习能力。PICL鼓励模型在上下文的条件下推断和执行任务,同时保持预训练模型的任务泛化能力。我们在七个广泛使用的文本分类数据集和包含100多个自然语言处理任务的Super-NaturalInstrctions基准测试上评估了使用PICL训练的模型的上下文学习性能。我们的实验表明,PICL比一系列基准模型更有效且具有任务泛化能力,性能优于参数几乎为其4倍的更大语言模型。代码公开可在https://github.com/thu-coai/PICL获取。
数字内容创作中,完全自动化的物体重建流程至关重要。虽然3D重建领域取得了深刻的发展,但为了获得干净的物体模型,仍然依赖不同形式的手动劳动,如边界框标注、蒙版注释和网格操作来移除背景。本文提出了一个名为AutoRecon的新颖框架,用于自动发现和重建多视角图像中的物体。我们展示了通过利用自监督的2D视觉Transformer特征,可以从SfM点云中强大地定位和分割前景物体。然后,我们通过分解点云提供的密集监督,重建分解的神经场景表示,从而实现准确的物体重建和分割。在DTU、BlendedMVS和CO3D-V2数据集上的实验表明了AutoRecon的有效性和稳健性。
获得大型通用语言模型的人类可解释解释是人工智能安全的紧迫目标。然而,同样重要的是,我们的可解释性方法要忠实于潜在模型行为的因果动态,并能够稳健地推广到未见输入。分布式对齐搜索(DAS)是一种基于因果抽象理论的强大梯度下降方法,它揭示了可解释的符号算法与为特定任务微调的小型深度学习模型之间的完美对齐。在本文中,我们通过用学习参数取代剩余的蛮力搜索步骤显著扩展了DAS,这一方法被称为DAS。这使我们能够在大型语言模型中高效地搜索可解释的因果结构,同时它们遵循指令。我们将DAS应用于Alpaca模型(7B参数),该模型可以解决一个简单的数值推理问题。通过DAS,我们发现Alpaca通过实施一个具有两个可解释布尔变量的因果模型来完成这项任务。此外,我们发现神经表示与这些变量的对齐对输入和指令的变化具有稳健性。这些发现标志着深度理解我们最大型和最广泛部署的语言模型内部运作的第一步。
自然语言界面通常需要监督数据,将用户请求翻译成程序、数据库查询或其他结构化意图表示。在数据收集过程中,很难预测并形式化用户需求的全部范围 -- 例如,在设计用于处理简单请求的系统中(比如找到明天的会议或将与经理的会议改到中午),用户可能还会表达更复杂的请求(比如交换周一和周二的所有电话)。我们提出了一种方法,通过分层自然语言分解过程,为简单的语言到代码模型提供处理复杂话语的能力。我们的方法使用预训练语言模型将复杂话语分解为一系列较小的自然语言步骤,然后使用语言到代码模型解释每个步骤。为了测试我们的方法,我们收集并发布了DeCU -- 一个新的NL到程序基准,用于评估复杂话语的分解。实验表明,所提出的方法能够几乎不需要复杂训练数据即可解释复杂话语,同时优于标准的少样本提示方法。
对比学习已成为学习多模态表示的高效框架。CLIP是这一领域的开创性工作,通过使用对比损失在配对的图像文本数据上训练取得了令人印象深刻的结果。最近的研究声称利用受自监督学习启发的额外非对比损失改进了CLIP。然而,有时很难将这些额外损失对模型训练的其他实现细节(如数据增强或正则化技术)的贡献与之区分开。为了阐明这一问题,在本文中,我们首先提出、实现并评估了几种基线模型,将对比学习与自监督学习的最新进展结合起来。具体来说,我们使用已被证明对视觉自监督学习成功的损失函数来对齐图像和文本模态。我们发现这些基线模型胜过了CLIP的基本实现。然而,当采用更强大的训练配方时,这种优势就消失了。事实上,我们发现一个简单的CLIP基线模型也可以通过使用其他子领域中流行的众所周知的训练技术显著改进,最多可在下游零样本任务上提高25%。此外,我们发现仅需应用图像和文本增强即可弥补先前工作所获得改进的大部分。通过我们改进的CLIP训练配方,在四个标准数据集上获得了最先进的性能,并且在相当简单的情况下始终胜过先前的工作(在最大数据集上最多提高了+4%),
最近的多模态预训练方法的进展显示出在三维表示学习中取得了有希望的效果,通过将三维模态、其二维对应模态以及相应的语言模态的特征进行对齐。然而,现有多模态预训练框架用于收集三维应用的多模态数据的方法缺乏可扩展性和全面性,可能限制了多模态学习的全部潜力。主要瓶颈在于语言模态的可扩展性和全面性。为了解决这一瓶颈,我们引入了ULIP-2,这是一个多模态预训练框架,利用最先进的大规模多模态语言模型(LLMs)在广泛知识上预训练,自动生成三维物体的整体语言对应物。我们在两个大规模数据集Objaverse和ShapeNet55上进行实验,并发布了我们生成的三模态三元组数据集(三维点云 - 图像 - 语言),命名为"ULIP-Objaverse三元组"和"ULIP-ShapeNet三元组"。ULIP-2仅需要三维数据本身,消除了任何手动注释的需求,展示了其可扩展性;ULIP-2在ModelNet40上实现了显著的零样本分类改进(74% Top1准确率)。此外,ULIP-2在现实世界的ScanObjectNN基准测试上创造了新纪录(91.5%总体准确率),同时仅利用了140万参数(比当前SOTA少10倍),标志着在没有人工注释的情况下实现可扩展的多模态三维表示学习的突破。代码和数据集可在https://github.com/salesforce/ULIP找到。
大型语言模型(LLMs)在自然语言处理方面取得了重大进展,但随着规模的增大,它们面临着计算开销和效率方面的挑战,特别是在特定领域的任务中。另一方面,小型语言模型(SLMs)在这些任务中常常由于容量有限和训练数据不足而遇到困难。本文介绍了一种名为Dr. LLaMA的方法,通过使用LLMs进行生成式数据增强来改善SLMs,在医学问答任务和PubMedQA数据集上进行重点研究。我们的研究结果表明,LLMs能够有效地优化和丰富现有的问答对,经过微调后,大大较小模型在特定领域的问答数据集上表现出更好的性能。本研究突显了使用LLMs进行特定领域问答的挑战,并提出了可能的研究方向来解决这些限制,最终旨在为专业应用创建更高效、更有能力的模型。我们还为感兴趣的研究人员提供了我们的代码。
掩码语言模型(MLMs)已被证明在自动语音识别(ASR)系统的二次重评分中非常有效。在这项工作中,我们提出了掩码音频文本编码器(MATE),这是一个多模态掩码语言模型重评分器,将声学表示合并到MLM的输入空间中。我们采用对比学习来有效地通过学习共享表示来对齐模态。我们展示了使用多模态重评分器对ASR系统的领域泛化是有益的,尤其是在目标领域数据不可用时。MATE在领域内数据上将词错误率(WER)降低了4%-16%,在领域外数据上降低了3%-7%,相较于仅文本的基准线。此外,即使只有非常有限的训练数据(0.8小时),MATE相较于第一遍基准线实现了8%-23%的WER降低。
最近的研究表明,使用句级别翻译排序任务训练的双编码器模型是跨语言句子嵌入的有效方法。然而,我们的研究表明,在多语境情况下,标记级别的对齐也是至关重要的,这在先前尚未得到充分探讨。根据我们的发现,我们提出了一个双对齐预训练(DAP)框架,用于跨语言句子嵌入,结合了句级别和标记级别的对齐。为实现这一目标,我们引入了一项新颖的表示翻译学习(RTL)任务,模型学习使用单侧上下文化标记表示重构其翻译对应物。这种重构目标鼓励模型将翻译信息嵌入到标记表示中。与其他标记级别对齐方法(如翻译语言建模)相比,RTL 更适用于双编码器架构,并且在计算上更有效率。对三个句级跨语言基准数据集的大量实验表明,我们的方法可以显著改善句子嵌入。我们的代码可在 https://github.com/ChillingDream/DAP 找到。
尽管规模庞大的语言模型取得了前所未有的成功,但它们仍会犯错。类似于人类通过反馈学习和改进的方式,先前的研究提出为语言模型提供自然语言反馈,以指导其修正输出。由于人工生成的批评成本高昂,研究人员设计了学习批评生成器来取代人类评论者,同时假设可以训练下游模型利用生成的反馈。然而,这种方法不适用于黑盒或受限制访问的模型,如ChatGPT,因为它们无法进行微调。此外,在大型通用语言代理的时代,微调既不具备计算效率,也不具备空间效率,因为会导致网络的多个副本。在这项工作中,我们介绍了RL4F(强化学习用于反馈),这是一个多智能体协作框架,其中批评生成器经过训练,以最大化GPT-3的终端任务性能,后者是其200多倍的固定模型。RL4F生成的批评有助于GPT-3修订其输出。我们研究了三个数据集,用于行动规划、摘要和字母排序,并展示了在所有三个任务中,相对于强基线,多个文本相似性指标的改进(平均约5%)。
本文提出了一种新颖的方法,用于使用语言模型检测ChatGPT生成的文本与人类撰写的文本。为此,我们首先收集并发布了一个经过预处理的数据集,命名为OpenGPTText,其中包含使用ChatGPT生成的重新表述内容。然后,我们分别使用RoBERTa(Robustly Optimized BERT Pretraining Approach)和T5(Text-to-Text Transfer Transformer)设计、实现和训练了两种不同的文本分类模型。我们的模型在测试数据集上取得了显著的结果,准确率超过97%,通过各种指标进行评估。此外,我们进行了一项可解释性研究,展示了我们的模型提取和区分人类撰写文本与ChatGPT生成文本之间关键特征的能力。我们的研究结果为有效利用语言模型检测生成文本提供了重要见解。