每日精选AI研究论文及翻译
对话式生成型人工智能已展现出在赋能生物医学从业者方面的显著潜力,但当前的研究集中在单模态文本上。多模态对话型人工智能通过利用来自公共网络的数十亿图像-文本对取得了快速进展,但这种通用领域的视觉-语言模型在理解和谈论生物医学图像方面仍然缺乏复杂性。在本文中,我们提出了一种成本效益高的方法,用于训练一个视觉-语言对话助手,该助手能够回答关于生物医学图像的开放性研究问题。关键思想是利用从PubMed Central提取的大规模、广覆盖的生物医学图解说明数据集,使用GPT-4从这些说明中自我指导开放性指令遵循数据,然后利用一种新颖的课程学习方法对一个大型通用领域的视觉-语言模型进行微调。具体来说,模型首先通过图解说明对来对齐生物医学词汇,然后通过GPT-4生成的指令遵循数据来掌握开放性对话语义,广泛模拟了一个门外汉逐渐获得生物医学知识的过程。这使我们能够在不到15小时的时间内(使用八个A100)训练出一个大型语言和视觉生物医学助手(LLaVA-Med)。LLaVA-Med表现出优秀的多模态对话能力,并能够遵循开放性指令,协助查询有关生物医学图像的问题。在三个标准生物医学视觉问答数据集上,LLaVA-Med在某些指标上优于先前的监督式最先进模型。为促进生物医学多模态研究,我们将发布我们的指令遵循数据和LLaVA-Med模型。
预训练的大型文本到图像模型利用适当的文本提示合成令人印象深刻的图像。然而,自然语言中固有的歧义和分布外效应使得合成特定设计模式、纹理或材质的图像风格变得困难。在本文中,我们介绍了StyleDrop,一种能够利用文本到图像模型合成忠实于特定风格的图像的方法。所提出的方法非常灵活,能够捕捉用户提供的风格的细微差别和细节,如配色方案、明暗、设计模式以及局部和全局效果。它通过微调极少量的可训练参数(不到总模型参数的1%)并通过迭代训练结合人工或自动反馈来提高质量,高效地学习新风格。更棒的是,即使用户只提供了一个指定所需风格的单个图像,StyleDrop也能够提供令人印象深刻的结果。广泛的研究表明,在风格调整文本到图像模型的任务中,StyleDrop在Muse上的实现明显优于其他方法,包括DreamBooth以及在Imagen或Stable Diffusion上的文本反演。更多结果请访问我们的项目网站:https://styledrop.github.io
我们介绍了一种基于价值的强化学习代理,我们称之为BBF,在Atari 100K基准测试中实现了超人类的表现。BBF依赖于对用于价值估计的神经网络进行缩放,以及一些其他设计选择,这些选择使得在样本有效的情况下进行这种缩放成为可能。我们对这些设计选择进行了广泛的分析,并为未来的工作提供了见解。最后,我们讨论了如何更新关于在ALE上进行样本有效的强化学习研究的目标。我们将我们的代码和数据公开发布在https://github.com/google-research/google-research/tree/master/bigger_better_faster。
像Stable Diffusion这样的扩散模型生成的图像越来越普遍。最近的研究甚至诉讼表明,这些模型倾向于复制它们的训练数据,而用户却并不知情。在本文中,我们首先分析了文本到图像扩散模型中的这一记忆问题。虽然普遍认为训练集中重复的图像是导致推断时内容复制的原因,但我们观察到模型的文本条件也发挥着同样重要的作用。事实上,我们在实验中发现,无条件模型通常不会发生数据复制,而在文本条件下却很常见。受到我们发现的启发,我们提出了几种技术,通过在训练集中对图像标题进行随机化和增强,来减少训练和推断时的数据复制。
Transformer已经成为最先进的自然语言处理模型的基石,展示出在各种人工智能应用中卓越的性能。然而,Transformer中的自注意机制和大型前馈网络提出的内存需求限制了它们处理长序列的能力,从而为涉及多个长序列或长期依赖的任务带来挑战。我们提出了一种独特的方法,即分块并行Transformer(BPT),它利用分块计算自注意力和前馈网络融合来最小化内存成本。通过处理更长的输入序列同时保持内存效率,BPT使得训练序列的长度可达到普通Transformer的32倍,并且比以往的内存高效方法长2到4倍。对语言建模和强化学习任务的大量实验表明,BPT在减少内存需求和提高性能方面的有效性。
鉴于大型语言模型(LLMs)的迅速崛起,我们研究以下问题:大型语言模型如何帮助科学论文或提案的审阅?我们首先进行了一些试点研究,发现(i)GPT-4的表现优于其他LLMs(Bard、Vicuna、Koala、Alpaca、LLaMa、Dolly、OpenAssistant、StableLM),以及(ii)通过特定问题提示(例如,识别错误)的表现优于简单要求撰写评论。基于这些见解,我们研究了LLMs(特别是GPT-4)在三个任务中的应用: 1. 识别错误:我们编写了13篇短的计算机科学论文,每篇故意插入一个错误,并要求LLM检查这些论文的正确性。我们观察到,LLM在其中发现了7个错误,涵盖了数学和概念性错误。 2. 验证检查表:我们要求LLM验证15篇NeurIPS 2022论文各自部分中的16个封闭式检查表问题。在119个{检查表问题,论文}对中,LLM的准确率为86.6%。 3. 选择“更好”的论文:我们生成了10对摘要,故意设计每对摘要以一篇明显优于另一篇。然而,LLM在准确辨别这些相对简单的区别方面表现出困难,对10对中的6对评估中出现错误。 根据这些实验,我们认为LLMs在特定审阅任务中作为审阅助手具有潜在用途,但尚不适用于对论文或提案的完整评估。
对比语言-图像预训练(CLIP)是一种最有效且可扩展的方法,用于训练可转移的视觉模型,利用成对的图像和文本数据。CLIP模型使用对比损失进行训练,通常依赖于数据增强以防止过拟合和捷径。然而,在CLIP训练范式中,数据增强仅应用于图像输入,而语言输入在整个训练过程中保持不变,限制了向同一图像展示多样文本的曝光。在本文中,我们介绍了一种名为Language augmented CLIP(LaCLIP)的简单而高效的方法,通过语言重写来增强CLIP训练。利用大型语言模型的上下文学习能力,我们重新编写与每个图像相关联的文本描述。这些重新编写的文本在句子结构和词汇上呈现多样性,同时保留原始关键概念和含义。在训练过程中,LaCLIP随机选择原始文本或重新编写版本作为每个图像的文本增强。在CC3M、CC12M、RedCaps和LAION-400M数据集上进行的大量实验表明,使用语言重写的CLIP预训练显著提高了转移性能,而在训练过程中没有计算或内存开销。具体来说,对于ImageNet的零样本准确率,LaCLIP在CC12M上比CLIP提高了8.2%,在LAION-400M上提高了2.4%。代码可在https://github.com/LijieFan/LaCLIP找到。
近年来,在使用文本指令编辑图像方面取得了相当大的成就。将这些编辑器应用于动态场景编辑时,由于这些2D编辑器是逐帧进行的,新风格场景往往在时间上不一致。为了解决这个问题,我们提出了Control4D,这是一种用于高保真和时间一致的4D肖像编辑的新方法。Control4D基于高效的4D表示构建,配合一个2D基于扩散的编辑器。我们的方法不是直接从编辑器中获得监督,而是从中学习一个4D GAN,并避免不一致的监督信号。具体来说,我们使用鉴别器来学习基于编辑图像的生成分布,然后用鉴别信号更新生成器。为了更稳定的训练,我们从编辑图像中提取多级信息,并用于促进生成器的学习。实验结果显示,Control4D超越了先前的方法,实现了更逼真和一致的4D编辑性能。我们项目网站的链接是https://control4darxiv.github.io。
离线强化学习(RL)旨在从离线数据集中学习最优策略,其中策略的参数化至关重要但经常被忽视。最近,Diffusion-QL通过用扩散模型表示策略,显著提升了离线RL的性能,其成功依赖于一个具有数百步采样的参数化马尔可夫链。然而,Diffusion-QL存在两个关键限制。1)在训练期间通过整个马尔可夫链进行前向和后向计算效率低下。2)它与基于最大似然的RL算法(例如策略梯度方法)不兼容,因为扩散模型的似然难以计算。因此,我们提出了高效扩散策略(EDP)来克服这两个挑战。EDP在训练期间通过从损坏的动作近似构建动作,以避免运行采样链。我们在D4RL基准测试上进行了大量实验。结果显示,EDP可以将扩散策略的训练时间从5天缩短到5小时,适用于gym-locomotion任务。此外,我们展示了EDP与各种离线RL算法(如TD3、CRR和IQL)兼容,并在D4RL上大幅领先于先前方法,取得了新的最先进水平。我们的代码可在https://github.com/sail-sg/edp找到。
我们提出了一种重建人类并随时间跟踪他们的方法。在我们的方法的核心,我们提出了一个完全“Transformer化”的人体网格恢复网络版本。这个网络,HMR 2.0,推动了技术发展,并展示了分析过去难以从单个图像重建的不寻常姿势的能力。为了分析视频,我们使用来自HMR 2.0的3D重建作为3D操作的跟踪系统的输入。这使我们能够处理多人并通过遮挡事件保持身份。我们的完整方法,4DHumans,在从单目视频跟踪人员方面取得了最先进的结果。此外,我们展示了HMR 2.0在动作识别下游任务上的有效性,相比之前基于姿势的动作识别方法,取得了显著的改进。我们的代码和模型可在项目网站上找到:https://shubham-goel.github.io/4dhumans/.
我们提出了一款名为“人还是非人?”的在线游戏,灵感来自图灵测试,用于衡量人工智能聊天机器人模仿人类对话的能力,以及人类区分机器人和其他人类的能力。在一个月的时间里,这款游戏吸引了超过150万用户参与,他们与另一名人类或者被提示要表现得像人类的人工智能语言模型进行了匿名的两分钟对话。玩家的任务是正确猜测他们是在与一个人类交谈还是与一个人工智能交谈。这是迄今为止规模最大的类图灵测试实验,揭示了一些有趣的事实。例如,总体而言,用户仅在68%的游戏中正确猜出了他们伙伴的身份。在用户面对人工智能机器人的游戏子集中,用户甚至只有60%的正确猜测率(即,几乎与随机猜测无异)。本白皮书详细介绍了这一独特实验的开发、部署和结果。虽然这一实验需要进行许多扩展和改进,但这些发现已经开始揭示人类和人工智能将不可避免地共存于不久的未来。
大型语言模型(LLMs)在各种自然语言生成任务中展现出卓越的成功,适当的提示设计对其影响巨大。现有的提示方法通常局限于提供正确信息,但在本文中,我们鼓励模型通过提出一种新颖的“先思考后生成”(DTG)提示框架来进行深思熟虑,该框架包括错误检测指令和可能包含错误的候选项。DTG是一种简单而有效的技术,可以在进行最少修改的情况下应用于各种文本生成任务。我们在包括总结、翻译、对话等在内的7个文本生成任务上对20多个数据集进行了广泛实验。我们展示了DTG始终优于现有提示方法,并在多个文本生成任务上实现了最先进的性能。我们还进行了深入分析,揭示了DTG的潜在机制,这可能会激发对LLMs提示的未来研究。
程序规划涉及将高层目标分解为一系列按时间顺序排列的步骤,对机器来说是一项重要且复杂的任务。它涉及整合常识知识,以推理处理通常是反事实的复杂情境,例如“在没有电话的情况下安排医生预约”。虽然当前方法利用大型语言模型(LLMs)显示出令人鼓舞的结果,但受制于诸如昂贵的API调用和可复现性问题等缺点。在本文中,我们主张利用较小的语言模型进行规划。我们提出PlaSma,一种新颖的双管齐下方法,赋予小型语言模型程序化知识和(反事实)规划能力。更具体地说,我们开发了符号化程序化知识蒸馏,以增强小型语言模型中的隐含知识,并提出了一种推理时算法,促进更有结构和准确性的推理。此外,我们引入了一项新颖任务,反事实规划,需要修订计划以应对反事实情况。在原始和反事实设置中,我们展示了数量级较小的模型(770M-11B参数)可以竞争并经常超越其更大的教师模型的能力。