每日精选AI研究论文及翻译
Transformer已经在几乎所有自然语言处理(NLP)任务中引起了革命,但存在着随着序列长度呈二次方增长的内存和计算复杂性。相比之下,循环神经网络(RNNs)在内存和计算需求上呈线性增长,但由于并行化和可扩展性方面的限制,很难达到Transformer相同的性能水平。我们提出了一种新颖的模型架构,名为Receptance Weighted Key Value(RWKV),结合了Transformer的高效可并行化训练和RNN的高效推断。我们的方法利用了线性注意力机制,使我们能够将模型构建为Transformer或RNN,从而在训练过程中并行化计算,并在推断过程中保持恒定的计算和内存复杂性,使其成为首个可扩展到数百亿参数的非Transformer架构。我们的实验显示,RWKV的性能与同等规模的Transformer相当,表明未来的工作可以利用这种架构创建更高效的模型。这项工作在协调序列处理任务中的计算效率和模型性能之间的权衡方面迈出了重要一步。
最近大型语言模型(LLMs)的发展令人印象深刻。然而,这些模型有时会显示不一致和有问题的行为,比如产生虚构事实、生成有缺陷的代码,或者创造冒犯性和有毒内容。与这些模型不同,人类通常利用外部工具来交叉检查和完善他们的初始内容,比如使用搜索引擎进行事实核查,或者使用代码解释器进行调试。受到这一观察的启发,我们引入了一个名为CRITIC的框架,允许LLMs这种本质上的“黑匣子”验证和逐渐修正其自身的输出,类似于人类与工具的交互。更具体地说,从初始输出开始,CRITIC与适当的工具进行交互,评估文本的某些方面,然后根据在此验证过程中获得的反馈修订输出。涉及自由形式问答、数学程序合成和毒性减少的全面评估表明,CRITIC始终提升了LLMs的性能。与此同时,我们的研究突显了外部反馈在促进LLMs持续自我改进中的关键重要性。
基于文本驱动的扩散模型在图像生成方面取得了前所未有的能力,而其视频对应物仍然落后,这是因为时间建模的训练成本过高。除了训练负担之外,生成的视频还存在外观不一致和结构闪烁的问题,尤其是在长视频合成中。为了解决这些挑战,我们设计了一个名为ControlVideo的无需训练的框架,以实现自然高效的文本到视频生成。ControlVideo源自ControlNet,利用输入运动序列的粗略结构一致性,并引入三个模块来改进视频生成。首先,为了确保帧间外观一致性,ControlVideo在自注意力模块中添加了完全的帧间交互。其次,为了减轻闪烁效应,它引入了一个交错帧平滑器,对交替帧进行帧插值。最后,为了高效生成长视频,它利用分层采样器分别合成每个具有整体连贯性的短视频片段。凭借这些模块的支持,ControlVideo在广泛的运动提示对上在定量和定性上均优于现有技术。值得注意的是,由于高效的设计,它可以在几分钟内使用一块NVIDIA 2080Ti生成短视频和长视频。代码可在https://github.com/YBYBZhang/ControlVideo获取。
自主网页导航的进展受到了对数十亿次在线强化学习探索交互和领域特定模型设计的依赖的阻碍,这使得难以利用丰富的跨领域数据进行泛化。在这项工作中,我们研究了基于数据驱动的离线训练,用于具有视觉-语言基础模型的网络代理。我们提出了一个指令跟随的多模态代理WebGUM,它观察网页截图和HTML页面,并输出网页导航动作,如点击和输入。WebGUM通过在大量演示语料库上联合微调指令微调的语言模型和视觉变换器进行训练。我们凭经验证明这一方法显著提高了代理的基于视觉的感知、HTML理解和多步推理能力,优于以往的工作。在MiniWoB基准测试中,我们比以前最佳的离线方法提高了31.9%以上,接近达到在线微调的最新技术水平。在WebShop基准测试中,我们的30亿参数模型的性能优于现有的最新技术水平PaLM-540B。我们还使用我们训练的模型收集了347K个高质量演示,比以前的工作大38倍,并提供给促进未来研究方向的研究者。
扩散模型是一类灵活的生成模型,通过对对数似然目标的近似训练。然而,大多数扩散模型的用例并不关注似然,而是关注人类感知图像质量或药物有效性等下游目标。本文研究了强化学习方法,用于直接优化扩散模型以实现这些目标。我们描述了将去噪视为多步决策问题如何启用一类策略梯度算法,我们称之为去噪扩散策略优化(DDPO),相较于替代的奖励加权似然方法更为有效。经验上,DDPO 能够调整文本到图像扩散模型以适应难以通过提示表达的目标,比如图像可压缩性,以及源自人类反馈的目标,比如美学质量。最后,我们展示了 DDPO 能够通过从视觉-语言模型的反馈改进提示-图像对齐,而无需额外的数据收集或人工标注。
近年来,图像生成在性能上取得了巨大进展,其中扩散模型发挥着核心作用。尽管这些模型能生成高质量图像,但主要是根据文本描述进行条件化。这引出了一个问题:“我们如何能够使这些模型适应其他模态的条件?”在本文中,我们提出了一种新颖方法,利用为文本到图像生成训练的潜在扩散模型来生成基于音频录音的图像。该方法利用预训练的音频编码模型,将音频编码为一个新的标记,可被视为音频和文本表示之间的适应层。这种建模范式需要少量可训练参数,使得所提出的方法在轻量级优化方面具有吸引力。结果表明,根据客观和主观指标,所提出的方法优于评估的基准方法。代码和样本可在以下网址获取:https://pages.cs.huji.ac.il/adiyoss-lab/AudioToken。
由可微搜索索引推广的生成式检索范式将经典信息检索问题重新构建为一个序列到序列建模任务,放弃了外部索引,并在单个Transformer中对整个文档语料库进行编码。尽管已经提出了许多不同的方法来提高生成式检索的有效性,但它们仅在规模约为100k的文档语料库上进行了评估。我们进行了第一项实证研究,跨越各种语料库规模研究生成式检索技术,最终扩展到包含8.8M段落的整个MS MARCO段落排名任务,并评估了高达11B参数的模型大小。我们揭示了关于将生成式检索扩展到数百万段落的几个发现;特别是,在索引过程中使用合成查询作为文档表示的核心重要性,考虑计算成本时现有提出的架构修改的无效性,以及简单地按比例扩展模型参数对检索性能的限制。虽然我们发现生成式检索在小语料库上与最先进的双编码器具有竞争力,但扩展到数百万段落仍然是一个重要且尚未解决的挑战。我们相信这些发现将对社区澄清当前生成式检索的现状、突出独特挑战,并激发新的研究方向具有价值。
在音频处理领域,迁移学习促进了自监督学习和零样本学习技术的兴起。这些方法导致了多功能模型的发展,能够处理各种任务,并提供最先进的性能。然而,当前模型固有地缺乏产生开放式任务所需语言的能力,比如音频字幕或音频问答。我们引入了一种新颖的音频语言模型Pengi,它利用迁移学习,将所有音频任务构建为文本生成任务。它以音频录音和文本作为输入,并生成自由文本作为输出。输入音频由音频编码器表示为连续嵌入序列。文本编码器对应的文本输入执行相同操作。这两个序列被合并为前缀,用于提示一个预训练的冻结语言模型。Pengi的统一架构使其能够处理开放式任务和封闭式任务,无需额外微调或特定任务扩展。在评估了22个下游任务后,我们的方法在其中几个任务中取得了最先进的性能。我们的结果表明,将语言模型与音频模型连接起来是迈向通用音频理解的重要一步。
最近在预训练大型语言模型方面取得的快速进展依赖于使用自监督语言建模目标,如下一个标记预测或跨度损坏。另一方面,机器翻译系统主要是使用需要源语言和目标语言之间对齐数据的跨语言监督进行训练。我们证明,在自监督语言建模目标和监督机器翻译目标的混合下对大型语言模型进行预训练,因此在预训练过程中包括跨语言平行数据,可以产生具有更好上下文学习能力的模型。由于预训练是一个非常资源密集的过程,并且在两个目标之间找到最佳混合比例的网格搜索成本过高,因此我们提出了一种简单而有效的策略,在预训练过程中学习这种比例。
大型语言模型(LLMs)以记忆其训练数据的重要部分而闻名。已经证明可以通过简单查询模型来提取其中的部分记忆内容,这构成了一种隐私风险。我们提出了一种新颖的方法,使用提示微调来控制LLMs中记忆内容的提取速率。我们提出了两种提示训练策略,分别用于增加和减少提取速率,分别对应攻击和防御。我们通过在公共基准上使用GPT-Neo系列模型展示了我们技术的有效性。对于13亿参数的GPT-Neo模型,我们的攻击相对于基线实现了提取速率的9.3个百分点增加。我们的防御可以通过用户指定的超参数来调整,以实现不同的隐私-效用权衡。相对于基线,我们实现了高达97.7%的提取速率降低,伴随着16.9%的困惑度增加。
大型语言模型(LLMs)可通过少量提示生成更小、更精细的数据集,用于基准测试、微调或其他用途。然而,理解和评估这些数据集是困难的,LLM 生成数据的失败模式仍不为人熟知。具体而言,数据可能以令人惊讶的方式重复,不仅在语义上如此,还在句法和词汇上如此。我们提出了 LinguisticLens,这是一种新颖的交互式可视化工具,用于理解和分析LLM生成数据集的句法多样性。LinguisticLens 可将文本沿着句法、词汇和语义轴进行聚类。它支持文本数据集的分层可视化,使用户能够快速浏览概览并检查单个示例。在线演示可在 shorturl.at/zHOUV 上找到。
基于Transformer的单向语言模型生成的表示被认为在预测大脑对自然语言的响应方面非常有效。然而,大多数比较语言模型和大脑的研究都使用了GPT-2或类似规模的语言模型。在这里,我们测试了来自OPT和LLaMA系列等更大规模的开源模型是否更适合预测使用fMRI记录的大脑响应。与其他情境中的扩展结果相一致,我们发现大脑预测性能随着模型规模从1.25亿到300亿参数模型呈对数线性扩展,通过与一个留存测试集的相关性衡量,跨3个受试者,编码性能提高了约15%。当扩展fMRI训练集的规模时,也观察到了类似的对数线性行为。我们还对使用HuBERT、WavLM和Whisper的声学编码模型进行了扩展特征化,发现模型规模增大时性能也有相应提升。对这些大规模、高性能编码模型的噪声上限分析显示,对于前扣带和更高级听觉皮层等大脑区域,性能接近理论最大值。这些结果表明,在模型和数据规模均扩大的情况下,将产生极其有效的大脑语言处理模型,有助于更好地科学理解以及解码等应用。
在 NLP 模型中,刻板印象基准数据集对于检测和减轻关于人群的社会刻板印象至关重要。然而,现有数据集在规模和覆盖范围上存在限制,并且主要局限于西方社会中普遍存在的刻板印象。随着语言技术在全球范围内的普及,这一问题尤为严重。为了填补这一空白,我们提出了SeeGULL,一个广覆盖的刻板印象数据集,利用诸如PaLM和GPT-3等大型语言模型的生成能力构建,并利用全球多样化的评分人群验证这些刻板印象在社会中的普遍程度。SeeGULL 以英语为主,包含涵盖178个国家、8个不同地缘政治地区、6大洲的身份群体的刻板印象,以及美国和印度境内的州级身份认同。我们还为不同刻板印象包括细粒度的冒犯程度评分,并展示它们之间的全球差异。此外,我们还包括了对同一群体的比较注释,其中注释者分别居住在该地区和北美,展示了地区内关于群体的刻板印象与北美普遍存在的刻板印象之间的差异。内容警告:本文包含可能具有冒犯性的刻板印象示例。
自动化在特定的软件工程(SE)任务中的出现已经从理论过渡到现实。许多学术文章记录了人工智能成功应用于项目管理、建模、测试和开发等领域的情况。最近的创新是ChatGPT的推出,这是一个融入机器学习的聊天机器人,被宣传为一种能够为开发人员和测试人员分别生成编程代码和制定软件测试策略的资源。尽管有人猜测基于人工智能的计算可以提高生产率甚至取代软件工程师在软件开发中的角色,但目前缺乏实证证据来验证这一点。此外,尽管主要关注提高人工智能系统的准确性,但非功能性需求,包括能源效率、脆弱性、公平性(即人类偏见)和安全性经常受到不足的关注。本文认为,通过全面比较软件工程师和基于人工智能解决方案,考虑各种评估标准,对促进人机协作、提高基于人工智能方法的可靠性以及了解任务适合人类还是人工智能至关重要。此外,这有助于有效实施合作工作结构和人在环中的流程。本文进行了实证调查,对比了软件工程师和人工智能系统(如ChatGPT)在不同评估指标下的表现。实证研究包括评估ChatGPT生成的代码与开发人员编写并上传到Leetcode的代码的案例。
制定选择性信息需求会导致查询隐含地指定集合操作,比如交集、并集和差集。例如,一个人可能会搜索“不是千鸟的涉禽”或“在英格兰拍摄的科幻电影”。为了研究检索系统满足这种信息需求的能力,我们构建了一个包含3357个自然语言查询的数据集QUEST,这些查询具有隐含的集合操作,映射到对应维基百科文档的实体集合。该数据集挑战模型匹配查询中提到的多个约束与文档中相应证据,并正确执行各种集合操作。该数据集是半自动构建的,使用维基百科类别名称。查询是从单独的类别自动组成的,然后由众包工作者进行释义和进一步验证自然性和流畅性。众包工作者还根据文档评估实体的相关性,并突出查询约束在文档文本范围内的归因。我们分析了几种现代检索系统,发现它们在这类查询上经常遇到困难。涉及否定和连接的查询尤其具有挑战性,系统在这些操作的组合上进一步受到挑战。
大型语言模型(LLMs)的出现显著影响了自然语言处理,在各种任务中展示出卓越的结果。在这项研究中,我们采用“内省提示”来帮助LLMs自我优化决策。通过内省地检查轨迹,LLM通过生成简洁而有价值的提示来完善其策略。我们的方法通过考虑三种重要情景来增强代理的性能,即从代理的过去经验中学习,整合专家演示,以及在不同游戏中进行泛化。重要的是,我们实现这些改进而无需微调LLM参数;相反,我们调整提示以从上述三种情况中泛化见解。我们的框架不仅支持而且强调了在上下文决策中使用LLM的优势。在TextWorld中涉及超过100个游戏的实验展示了我们方法的卓越性能。
大型语言模型(LLM)在开放领域任务中备受青睐并取得了显著成就,但在实际工业领域特定场景中的表现平平,因为其缺乏特定领域知识。这一问题受到了广泛关注,但相关基准数据集却很少。本文提供了一个名为MSQA的基准问答(QA)数据集,涉及微软产品和客户遇到的IT技术问题。该数据集包含行业云特定的问答知识,这对于一般LLM来说是不可得的,因此非常适合评估旨在提高LLM特定领域能力的方法。此外,我们提出了一种新的模型交互范式,可以赋予LLM在其不擅长的特定领域任务上取得更好的表现能力。大量实验证明,遵循我们的模型融合框架的方法胜过常用的LLM与检索方法相结合的方式。
我们介绍了多目标反事实设计(MCD),这是一种在设计问题中进行反事实优化的新方法。反事实是可能导致不同决策或选择的假设情况。在本文中,作者将反事实搜索问题构建为一个设计推荐工具,可以帮助识别对设计进行修改,从而实现更好的功能性能。MCD通过支持多目标查询并解耦反事实搜索和采样过程来改进现有的反事实搜索方法,这在设计问题中至关重要,同时提高效率并促进客观权衡可视化。本文使用二维测试案例展示了MCD的核心功能,随后进行了三个自行车设计案例研究,展示了MCD在实际设计问题中的有效性。在第一个案例研究中,MCD擅长推荐对查询设计进行修改,可以显著提升功能性能,如减轻重量和改善结构安全系数。第二个案例研究表明,MCD可以与预训练语言模型配合,有效地根据主观文本提示建议设计更改。最后,作者要求MCD增加查询设计与目标图像和文本提示的相似性,同时减轻重量并提高结构性能,展示了MCD在复杂多模态查询上的表现。总的来说,MCD有潜力为寻找答案的从业者和设计自动化研究人员提供有价值的建议,通过探索假设设计修改及其对多个设计目标的影响来回答他们的“假如”问题。本文使用的代码、测试问题和数据集可供公众访问,网址为decode.mit.edu/projects/counterfactuals/。
发展心理学家花费数十年时间设计实验,测试婴儿和儿童的智力和知识,追溯关键概念和能力的起源。此外,发展心理学中的实验技术被精心设计,以区分支撑特定行为的认知能力。我们提出,利用儿童发展中的经典实验来探究AI模型的计算能力是一种特别有效的方式,尤其是对LLMs而言。首先,发展心理学的方法论技术,例如使用新颖刺激来控制过去经验或控制条件以确定儿童是否使用简单关联,同样有助于评估LLMs的能力。同时,通过这种方式测试LLMs可以告诉我们,文本中编码的信息是否足以实现特定响应,或者这些响应是否依赖于其他类型的信息,比如来自探索物理世界的信息。在这项工作中,我们改编经典的发展实验来评估Google的大型语言模型LaMDA的能力。我们提出了一种新颖的LLM响应评分(LRS)指标,可用于评估其他语言模型,如GPT。我们发现LaMDA生成的适当响应与涉及社会理解的实验中儿童的响应相似,也许证明了这些领域的知识是通过语言发现的证据。另一方面,LaMDA在早期物体和行为理解、心灵理论,尤其是因果推理任务中的响应与年幼儿童的响应非常不同,也许表明这些领域需要更多真实世界的自主探索,而不能简单地从语言输入的模式中学习。