每日精选AI研究论文及翻译
最近,文本到图像生成取得了显著的成就。我们引入了一种名为RAPHAEL的文本条件图像扩散模型,用于生成高度艺术化的图像,准确描绘文本提示,涵盖多个名词、形容词和动词。这是通过堆叠数十个专家混合模型(MoEs)层实现的,即空间MoE和时间MoE层,从网络输入到输出实现了数十亿的扩散路径(路线)。每条路径直观地充当“画家”,在扩散时间步上将特定的文本概念描绘到指定的图像区域。全面的实验显示,RAPHAEL在图像质量和审美吸引力方面优于最近的前沿模型,如稳定扩散、ERNIE-ViLG 2.0、DeepFloyd和DALL-E 2。首先,RAPHAEL在切换各种风格的图像方面表现出色,如日本漫画、写实主义、赛博朋克和水墨插画。其次,一个拥有30亿参数的单一模型,在1000台A100 GPU上训练了两个月,在COCO数据集上实现了6.61的最先进零样本FID分数。此外,RAPHAEL在ViLG-300基准上的人类评估明显超过了其竞争对手。我们相信RAPHAEL有潜力推动学术界和工业界图像生成研究的前沿,为这个快速发展的领域的未来突破铺平道路。更多详细信息请访问项目网页:https://raphael-painter.github.io/。
我们提出了一种方法,将冻结的纯文本大型语言模型(LLMs)与预训练的图像编码器和解码器模型融合,通过在它们的嵌入空间之间进行映射。我们的模型展示了广泛的多模态能力:图像检索、新颖图像生成和多模态对话。我们的方法是第一种能够在任意交错的图像和文本输入上进行条件生成连贯图像(和文本)输出的方法。为了在图像生成上取得强大的性能,我们提出了一个高效的映射网络,将LLM与现成的文本到图像生成模型进行连接。这个映射网络将文本的隐藏表示转换为视觉模型的嵌入空间,使我们能够利用LLM的强大文本表示来生成视觉输出。我们的方法在长且复杂语言任务上优于基准生成模型。除了新颖图像生成,我们的模型还能够从预定义数据集中检索图像,并在推断时决定是检索还是生成。这是通过一个学习的决策模块完成的,该模块根据LLM的隐藏表示进行条件设定。与先前的多模态语言模型相比,我们的模型展示了更广泛的能力范围。它可以处理图像和文本输入,并产生检索到的图像、生成的图像和生成的文本,优于非LLM的生成模型在几个衡量上下文依赖性的文本到图像任务中。
公开的大规模文本到图像扩散模型,如稳定扩散,已经引起了社区的广泛关注。这些模型可以通过低秩适应(LoRAs)轻松定制新概念。然而,利用多个概念LoRAs来共同支持多个定制概念提出了挑战。我们将这种情况称为分散式多概念定制,涉及单客户概念调整和中心节点概念融合。在本文中,我们提出了一个名为Mix-of-Show的新框架,解决了分散式多概念定制的挑战,包括由现有单客户LoRA调整引起的概念冲突和模型融合过程中的身份丢失。Mix-of-Show采用嵌入分解LoRA(ED-LoRA)进行单客户调整,采用梯度融合进行中心节点以保留单个概念的领域本质,并支持理论上无限的概念融合。此外,我们引入了区域可控采样,将空间可控采样(例如ControlNet和T2I-Adaptor)扩展到多概念采样中,以解决属性绑定和缺失对象问题。大量实验证明Mix-of-Show能够以高保真度组合多个定制概念,包括字符、物体和场景。
稳定扩散技术彻底改变了从描述性文本生成图像的方法。GPT-2、GPT-3(.5) 和 GPT-4 在各种语言任务中展现出惊人的性能。ChatGPT 将这类语言模型引入了普通大众。现在可以明确的是,大型语言模型 (LLMs) 已经扎根,并将在在线文本和图像整个生态系统中带来巨大变革。本文考虑了未来可能的发展。当大型语言模型 (LLMs) 占据在线文本的大部分内容时,GPT-{n} 会发生什么?我们发现,在训练中使用模型生成的内容会导致生成的模型出现不可逆的缺陷,原始内容分布的尾部会消失。我们称之为模型痴呆效应,并展示了它在变分自动编码器 (VAEs)、高斯混合模型 (GMMs) 和大型语言模型 (LLMs) 中的出现。我们在现象背后建立了理论直觉,并描绘了它在所有学习生成模型中的普遍性。我们证明,如果我们要继续从网络大规模数据训练中获益,就必须认真对待这一问题。事实上,在互联网抓取的数据中,由大型语言模型生成的内容存在时,关于人类与系统的真实互动收集的数据价值将日益增长。
本文旨在有效地使大型语言模型(LLMs)能够使用多模态工具。先进的专有LLMs,如ChatGPT和GPT-4,通过复杂的提示工程展现了利用工具的巨大潜力。然而,这些模型通常依赖于高昂的计算成本和公开不可访问的数据。为了解决这些挑战,我们提出了基于自我指导的GPT4Tools,以使开源LLMs,如LLaMA和OPT,能够使用工具。它通过提示一个先进的教师以各种多模态上下文来生成一个遵循指令的数据集。通过使用低秩适应(LoRA)优化,我们的方法促进了开源LLMs解决各种视觉问题,包括视觉理解和图像生成。此外,我们提供了一个基准来评估LLMs使用工具的能力,这在零-shot和微调方式下进行。大量实验证明了我们的方法对各种语言模型的有效性,不仅显著提高了调用已见工具的准确性,还实现了对未见工具的零-shot能力。代码和演示可在https://github.com/StevenGrove/GPT4Tools找到。
我们提出了MindEye,一种新颖的fMRI到图像的方法,用于从大脑活动中检索和重建查看的图像。我们的模型包括两个并行子模块,专门用于检索(使用对比学习)和重建(使用扩散先验)。MindEye可以将fMRI大脑活动映射到任何高维多模态潜空间,如CLIP图像空间,从而使用接受来自该潜空间的嵌入的生成模型进行图像重建。我们通过定性并排比较和定量评估全面比较我们的方法与其他现有方法,并展示MindEye在重建和检索任务中实现了最先进的性能。特别是,MindEye可以在高度相似的候选项中甚至检索到确切的原始图像,表明其大脑嵌入保留了细粒度的图像特定信息。这使我们能够准确地从大规模数据库(如LAION-5B)中检索图像。我们通过消融实验证明,MindEye相对于先前方法的性能改进源自专门用于检索和重建的子模块、改进的训练技术以及训练具有数量级更多参数的模型。此外,我们展示了MindEye可以通过使用来自单独自动编码器的输出的img2img更好地保留重建中的低级图像特征。所有代码均可在GitHub上获得。
准确的故事可视化需要几个必要元素,例如跨帧的身份一致性、纯文本与视觉内容之间的对齐,以及图像中对象的合理布局。大多数先前的研究致力于通过在相同风格和具有相同角色的视频集上拟合文本到图像(T2I)模型来满足这些要求,例如 FlintstonesSV 数据集。然而,学习的 T2I 模型通常难以适应新角色、场景和风格,并且常常缺乏修改合成图像布局的灵活性。本文提出了一个通用交互式故事可视化系统,能够处理多个新颖角色,并支持编辑布局和局部结构。该系统通过利用在大规模语料库上训练的大型语言和 T2I 模型的先验知识而开发。系统包括四个相互连接的组件:故事到提示生成(S2P)、文本到布局生成(T2L)、可控文本到图像生成(C-T2I)和图像到视频动画(I2V)。首先,S2P 模块将简洁的故事信息转换为后续阶段所需的详细提示。接下来,T2L 根据提示生成多样且合理的布局,为用户提供调整和优化布局的能力。核心组件 C-T2I 可以根据布局、草图和特定演员标识符创建图像,以保持可视化中的一致性和细节。最后,I2V 通过为生成的图像添加动画丰富了可视化过程。进行了广泛的实验和用户研究,以验证所提出系统的交互式编辑的有效性和灵活性。
大型语言模型(LLMs)展示了在各种自然语言中具有良好的翻译性能。然而,许多LLMs,尤其是开源的模型,如BLOOM和LLaMA,主要以英语为主,并且仅支持几十种自然语言,导致LLMs在语言翻译方面的潜力尚未被充分探索。在这项工作中,我们提出了BigTrans,它基于覆盖仅20种语言的LLaMA,并增强了其在100多种语言上的多语言翻译能力。BigTrans是基于LLaMA-13B构建的,并经过三个步骤的优化。首先,我们使用大规模的中文单语数据继续训练LLaMA。其次,我们使用覆盖102种自然语言的大规模平行数据集继续训练模型。第三,我们使用多语言翻译指令对基础模型进行微调,形成我们的BigTrans模型。多语言翻译的初步实验表明,BigTrans在许多语言上的表现与ChatGPT和Google翻译相当,甚至在8种语言对中胜过ChatGPT。我们发布了BigTrans模型,并希望它能推动研究进展。
具有强大自然语言处理能力的大型语言模型(LLMs)已经出现,并迅速应用于科学、金融和软件工程等各种领域。然而,LLMs推动化学领域发展的能力尚不清楚。本文建立了一个包含8个实际化学任务的全面基准,包括1)名称预测,2)属性预测,3)产量预测,4)反应预测,5)逆合成(从产物预测反应物),6)基于文本的分子设计,7)分子字幕,和8)试剂选择。我们的分析基于广泛认可的数据集,包括BBBP、Tox21、PubChem、USPTO和ChEBI,促进了对LLMs在实际化学背景下能力的广泛探索。我们评估了三个GPT模型(GPT-4、GPT-3.5和Davinci-003)在每个化学任务中的零-shot和少-shot上下文学习设置,使用精心选择的演示示例和特别设计的提示。我们调查的关键结果是1)在三个评估模型中,GPT-4表现优于其他两个模型;2)GPT模型在需要对分子SMILES表示进行精确理解的任务中表现较差,例如反应预测和逆合成;3)GPT模型在文本相关的解释任务中表现出强大能力,如分子字幕;4)GPT模型在应用于可转化为分类或排名任务的化学问题时,如属性预测和产量预测时,表现出与经典机器学习模型相媲美或更好的性能。
目前的文本到图像生成模型通常难以遵循文本指令,特别是那些需要空间推理的指令。另一方面,大型语言模型(LLMs),如GPT-4,在为文本输入生成代码片段方面表现出了卓越的精度,例如通过TikZ进行图形化草图。在这项工作中,我们引入Control-GPT来指导基于扩散的文本到图像流程,使用GPT-4生成的程序化草图来增强其遵循指令的能力。Control-GPT通过查询GPT-4编写TikZ代码,生成的草图与文本指令一起用作扩散模型(例如ControlNet)生成逼真图像的参考。训练我们的流程面临的一个主要挑战是缺乏包含对齐文本、图像和草图的数据集。我们通过将现有数据集中的实例掩模转换为多边形来模仿测试时使用的草图,以解决这个问题。因此,Control-GPT极大地提升了图像生成的可控性。它在空间布局和对象位置生成方面确立了新的技术水平,并增强了用户对对象位置、大小等的控制,几乎使先前模型的准确性翻倍。我们的工作作为一次首次尝试,展示了利用LLMs增强计算机视觉任务性能的潜力。
在图像和视觉内容主导数字领域的时代,操纵和个性化这些图像的能力已成为必需。设想无缝地将一只躺在阳光照射的窗台上的虎斑猫在照片中替换为自己顽皮的小狗,同时保留图像的原始魅力和构图。我们提出了Photoswap,这是一种新颖方法,通过在现有图像中进行个性化主体交换,实现了这种沉浸式图像编辑体验。Photoswap首先从参考图像中学习主体的视觉概念,然后使用预训练的扩散模型以无需训练的方式将其交换到目标图像中。我们确定,一个概念完善的视觉主体可以通过适当的自注意力和交叉注意力操作,无缝地转移到任何图像中,保持交换主体的姿势和图像的整体连贯性。全面的实验突显了Photoswap在个性化主体交换中的有效性和可控性。此外,Photoswap在人类评分方面明显优于基准方法,涵盖了主体交换、背景保留和整体质量,揭示了其广泛的应用潜力,从娱乐到专业编辑。
借助大规模图像文本数据集和扩散模型的进展,以文本驱动为基础的生成模型在图像生成和编辑领域取得了显著进展。本研究探讨了将文本驱动能力扩展到生成和编辑多文本条件下的长视频的潜力。当前用于视频生成和编辑的方法虽然创新,但通常局限于极短的视频(通常少于24帧),并且仅限于单一文本条件。这些限制显著地限制了它们的应用,因为现实世界中的视频通常由多个段组成,每个段携带不同的语义信息。为了解决这一挑战,我们引入了一种称为Gen-L-Video的新范式,能够将现成的短视频扩散模型扩展到生成和编辑包含数百帧具有不同语义段的视频,而无需额外的训练,同时保持内容一致性。我们实现了三种主流的文本驱动视频生成和编辑方法,并通过我们提出的范式扩展它们,以适应具有各种语义段的更长视频。我们的实验结果显示,我们的方法显著拓宽了视频扩散模型的生成和编辑能力,为未来的研究和应用提供了新的可能性。代码可在https://github.com/G-U-N/Gen-L-Video获取。
我们介绍了SwiftSage,这是一个新颖的代理框架,灵感来自于人类认知的双过程理论,旨在在复杂互动推理任务的行动规划中表现出色。SwiftSage将行为克隆和提示大型语言模型(LLMs)的优势融合在一起,以增强任务完成性能。该框架包括两个主要模块:Swift模块,代表快速直觉思维,以及Sage模块,模拟深思熟虑的思维过程。Swift模块是一个在神谕代理的行动轨迹上进行微调的小型编码器-解码器LM,而Sage模块则利用诸如GPT-4之类的LLMs进行子目标规划和基础建立。我们开发了一种启发式方法,将这两个模块融合在一起,从而实现更高效和更稳健的问题解决过程。在来自ScienceWorld基准的30个任务中,SwiftSage明显优于其他方法,如SayCan、ReAct和Reflexion,展示了其在解决复杂现实世界任务中的有效性。
对语言模型(LMs)进行微调已经在各种下游任务上取得成功,但随着LMs规模的增长,反向传播需要大量的内存,这是无法承受的。零阶(ZO)方法原则上可以仅使用两次前向传递来估计梯度,但据推测,对于优化大型模型来说速度极慢。在这项工作中,我们提出了一种内存高效的零阶优化器(MeZO),将经典的ZO-SGD方法调整为原地操作,从而使LMs的微调具有与推理相同的内存占用。例如,使用单个A100 80GB GPU,MeZO可以训练一个300亿参数的模型,而使用反向传播进行微调只能在相同预算下训练一个27亿参数的LM。我们在不同模型类型(掩码和自回归LMs)、模型规模(高达660亿)和下游任务(分类、多选和生成)上进行了全面实验。我们的结果表明,(1)MeZO明显优于上下文学习和线性探测;(2)MeZO在多个任务上实现了与使用反向传播微调相当的性能,同时减少了高达12倍的内存;(3)MeZO与LoRA和前缀微调等全参数和参数高效微调技术兼容;(4)MeZO可以有效地优化非可微目标(例如,最大化准确性或F1)。我们用理论见解支持我们的实证发现,强调充分的预训练和任务提示如何使MeZO能够微调巨大的模型,尽管经典ZO分析表明相反。
最近,对开发基于扩散的文本到图像生成模型的兴趣日益增长,这些模型能够生成连贯且形式良好的视觉文本。在本文中,我们提出了一种名为GlyphControl的新颖高效方法来解决这一任务。与现有方法(如ByT5)依赖于字符感知文本编码器并需要重新训练文本到图像模型不同,我们的方法利用额外的字形条件信息,以提升现成的Stable-Diffusion模型在生成准确视觉文本方面的性能。通过整合字形指令,用户可以根据特定要求定制生成文本的内容、位置和大小。为促进视觉文本生成的进一步研究,我们构建了一个名为LAION-Glyph的训练基准数据集。我们通过测量基于OCR的指标和生成视觉文本的CLIP分数来评估我们方法的有效性。我们的实证评估表明,GlyphControl在OCR准确性和CLIP分数方面优于最近的DeepFloyd IF方法,突显了我们方法的有效性。
随着大型语言模型(LLMs)不断被开发,它们的评估变得越来越重要,但也更具挑战性。本文提出了“Chain-of-Thought Hub”,这是一个关于大型语言模型多步推理能力的开源评估套件。我们对这一设置感兴趣有两个原因:(1)从GPT和PaLM模型系列的行为中,我们观察到复杂推理很可能是较弱和较强LLMs之间的关键差异因素;(2)我们设想大型语言模型将成为下一代计算平台,并促进基于LLM的新应用生态系统的发展,这自然需要基础模型执行通常涉及语言和逻辑操作组合的复杂任务。我们的方法是编制一套具有挑战性的推理基准,以跟踪LLMs的进展。我们目前的结果显示:(1)模型规模与推理能力明显相关;(2)截至2023年5月,Claude-v1.3和PaLM-2是仅有的两个与GPT-4可比的模型,而开源模型仍然落后;(3)LLaMA-65B的表现接近于code-davinci-002,表明通过成功的进一步发展,如从人类反馈中进行强化学习(RLHF),它有望接近于GPT-3.5-Turbo。我们的结果还表明,为了赶上开源努力,社区可能需要更多专注于构建更好的基础模型并探索RLHF。
近年来,Minecraft引人入胜的世界吸引了大量研究兴趣,成为开发能够在开放世界环境中运作的智能代理的丰富平台。然而,当前的研究领域主要集中在特定目标上,如流行的“获取钻石”任务,并尚未有效地推广到更广泛的任务范围。此外,“获取钻石”任务的当前领先成功率约为20%,突显了现有方法中基于强化学习(RL)的控制器的局限性。为了解决这些挑战,我们引入了Minecraft中的Ghost(GITM),这是一个新颖的框架,将大型语言模型(LLMs)与基于文本的知识和记忆相结合,旨在在Minecraft中创建通用能力代理(GCAs)。这些代理配备了LLMs的逻辑和常识能力,可以熟练地在基于文本交互的复杂、稀疏奖励环境中导航。我们开发了一组结构化动作,并利用LLMs为代理生成行动计划。由此产生的基于LLMs的代理明显超越了先前的方法,在“获取钻石”任务的成功率上取得了显著提高,成功率提高了+47.5%,表现出比传统RL控制器更强大的稳健性。值得注意的是,我们的代理是第一个获取Minecraft主世界技术树中所有物品的代理,展示了其广泛的能力。GITM在训练时不需要任何GPU,而单个具有32个CPU核心的CPU节点就足够了。这项研究展示了LLMs在开发处理长期、复杂任务并适应开放世界环境中的不确定性的能力代理方面的潜力。请访问项目网站https://github.com/OpenGVLab/GITM。
大型语言模型(LLMs)显著提升了机器生成文本的流畅度和多样性。然而,这一进展也带来了一个重要挑战,即检测给定文本的来源,而目前关于检测方法的研究落后于LLMs的快速演进。传统基于训练的方法在灵活性方面存在局限,特别是在适应新领域时,它们往往缺乏解释能力。为了弥补这一差距,我们提出了一种名为分歧N-Gram分析(DNA-GPT)的新颖无需训练的检测策略。给定一段文本,我们首先在中间截断它,然后仅使用前面部分作为LLMs的输入,以重新生成新的剩余部分。通过在黑盒或概率分歧中进行N-gram分析,我们可以清晰地说明机器生成文本和人类撰写文本之间的显著差异。我们对来自OpenAI的最先进LLMs进行了广泛实验,包括text-davinci-003、GPT-3.5-turbo和GPT-4,以及开源模型如GPT-NeoX-20B和LLaMa-13B。结果表明,我们的零-shot方法在区分人类和GPT生成文本方面表现出最先进的性能,涵盖了四个英语和一个德语数据集,胜过了OpenAI自己的分类器,后者经过数百万文本的训练。此外,我们的方法提供了合理的解释和证据来支持我们的主张,这是可解释检测的独特特性。我们的方法还能够抵抗修订文本攻击,并且可以解决模型溯源问题。代码可在https://github.com/Xianjun-Yang/DNA-GPT找到。
尽管扩散生成模型在文本到图像生成领域取得了巨大成功,但在图像压缩领域复制这一成功却颇具挑战。本文中,我们展示了扩散能够显著提高在给定比特率下的感知质量,通过 FID 分数的衡量超越了PO-ELIC和HiFiC等最先进方法。我们采用了一个简单但理论上有动机的两阶段方法,首先是针对均方误差的自编码器,然后是基于分数的进一步解码器。然而,正如我们将展示的,实现细节至关重要,最佳设计决策可能与典型的文本到图像模型大相径庭。