每日精选AI研究论文及翻译
合成满足用户需求的视觉内容通常需要对生成对象的姿势、形状、表情和布局进行灵活且精确的可控性。现有方法通过手动注释的训练数据或先前的3D模型获得生成对抗网络(GANs)的可控性,但往往缺乏灵活性、精确性和普适性。在这项工作中,我们研究了一种强大但较少探索的控制GANs的方法,即以用户交互方式“拖动”图像的任意点以精确达到目标点,如图1所示。为实现这一目标,我们提出了DragGAN,它由两个主要组件组成:1)基于特征的运动监督,驱动控制点向目标位置移动;2)一种新的点追踪方法,利用判别生成器特征不断定位控制点的位置。通过DragGAN,任何人都可以精确控制像素的移动,从而操纵动物、汽车、人类、风景等各种类别的姿势、形状、表情和布局。由于这些操作是在GAN的学习生成图像流形上执行的,因此即使对于挑战性场景,如产生幻觉的遮挡内容和变形形状始终遵循对象的刚性,它们也往往会产生逼真的输出。定性和定量比较表明,在图像操作和点追踪任务中,DragGAN相对于先前方法具有优势。我们还展示了通过GAN反演对真实图像进行操作。
语言模型越来越多地被部署用于解决各种问题,但在推理过程中仍然局限于基于标记的、从左到右的决策过程。这意味着它们在需要探索、战略前瞻或初始决策起关键作用的任务中可能表现不佳。为了克服这些挑战,我们引入了一种新的语言模型推理框架,即“思维树”(Tree of Thoughts,ToT),它泛化了流行的“思维链”方法,促使语言模型在解决问题时可以对文本单元(思维)进行探索,这些思维作为中间步骤。ToT允许语言模型通过考虑多条不同的推理路径和自我评估选择来进行有意识的决策,以决定下一步的行动,同时在必要时进行前瞻或回溯,以做出全局性选择。我们的实验表明,ToT显著增强了语言模型在需要复杂规划或搜索的三项新任务中的解决问题能力:24点游戏、创意写作和迷你填字游戏。例如,在24点游戏中,虽然只有使用思维链提示的GPT-4解决了4%的任务,但我们的方法成功率达到了74%。所有提示的代码库:https://github.com/ysymyth/tree-of-thought-llm。
本研究提出了一种用于3D的潜在扩散模型(LDM3D),可以从给定的文本提示生成图像和深度图数据,使用户能够从文本提示生成RGBD图像。LDM3D模型在包含RGB图像、深度图和标题的元组数据集上进行了微调,并通过大量实验进行了验证。我们还开发了一个名为DepthFusion的应用程序,利用生成的RGB图像和深度图使用TouchDesigner创建沉浸式和交互式的360度全景体验。这项技术有潜力改变广泛的行业,从娱乐和游戏到建筑和设计。总的来说,本文对生成式人工智能和计算机视觉领域做出了重要贡献,并展示了LDM3D和DepthFusion改变内容创作和数字体验的潜力。可以在 https://t.ly/tdi2 找到总结该方法的短视频。
我们介绍了OpenShape,这是一种用于学习文本、图像和点云的多模态联合表示的方法。我们采用了常用的多模态对比学习框架来进行表示对齐,但特别关注扩展3D表示以实现开放世界的3D形状理解。为了实现这一目标,我们通过集成多个3D数据集来扩大训练数据,并提出了几种策略来自动过滤和丰富嘈杂的文本描述。我们还探讨并比较了用于扩展3D骨干网络的策略,并引入了一种新颖的硬负样本挖掘模块以实现更高效的训练。我们在零样本3D分类基准测试上评估了OpenShape,并展示了其在开放世界识别方面的卓越能力。具体而言,OpenShape在包含1,156个类别的Objaverse-LVIS基准测试中实现了46.8%的零样本准确率,而现有方法的准确率不到10%。OpenShape在ModelNet40上也取得了85.3%的准确率,优于先前的零样本基线方法20%,并与一些完全监督的方法持平。此外,我们展示了我们学到的嵌入式编码了广泛的视觉和语义概念(例如,子类别、颜色、形状、风格),并促进了细粒度的文本-3D和图像-3D交互。由于它们与CLIP嵌入的对齐,我们学到的形状表示还可以与现成的基于CLIP的模型集成,用于各种应用,如点云字幕和点云条件图像生成。
多模态大型语言模型被视为通往人工通用智能(AGI)的关键一步,并随着ChatGPT的出现引起了极大的兴趣。然而,当前的语音-语言模型通常采用级联范式,阻碍了跨模态知识传递。本文提出了SpeechGPT,这是一个具有内在跨模态对话能力的大型语言模型,能够感知和生成多模态内容。我们首先利用离散语音表示构建了SpeechInstruct,这是一个大规模的跨模态语音指导数据集。此外,我们采用了三阶段训练策略,包括模态适应预训练、跨模态指导微调和链式模态指导微调。实验结果表明,SpeechGPT具有出色的能力来遵循多模态人类指令,并突显了用一个模型处理多种模态的潜力。演示请参见https://0nutation.github.io/SpeechGPT.github.io/。
大型语言模型(LLMs)显著加速了人工通用智能(AGI)的进展,其令人印象深刻的零翻译能力为用户定制任务,赋予它们在各种应用中巨大潜力。然而,在计算机视觉领域,尽管有许多强大的视觉基础模型(VFMs)可用,它们仍然局限于预定义形式的任务,难以匹敌LLMs的开放式任务能力。在这项工作中,我们提出了一个基于LLM的面向视觉任务的框架,称为VisionLLM。该框架通过将图像视为外语,并将视觉中心任务与可以使用语言指令灵活定义和管理的语言任务对齐,为视觉和语言任务提供了统一的视角。然后,基于LLM的解码器可以根据这些指令对开放式任务进行适当的预测。大量实验证明所提出的VisionLLM可以通过语言指令实现不同级别的任务定制化,从细粒度对象级到粗粒度任务级的定制化,均取得良好结果。值得注意的是,使用通用型LLM框架,我们的模型在COCO上可以实现超过60\%的mAP,与特定检测模型持平。我们希望这个模型能为通用型视觉和语言模型设定一个新的基准。演示将基于https://github.com/OpenGVLab/InternGPT发布。代码将在https://github.com/OpenGVLab/VisionLLM发布。
在交互式人工智能系统设计中,实现机器自主性和人类控制往往代表着不同的目标。视觉生成基础模型,如稳定扩散(Stable Diffusion),展现了在处理这些目标时的潜力,特别是在接收任意语言提示时。然而,它们通常在生成具有空间、结构或几何控制的图像方面表现不佳。整合这些控制,以在单一统一模型中适应各种视觉条件,仍然是一个未解决的挑战。为此,我们引入了UniControl,这是一个新的生成基础模型,它在一个框架内整合了各种可控制的条件到图像(C2I)任务,同时仍允许接收任意语言提示。UniControl实现了像素级精确的图像生成,其中视觉条件主要影响生成的结构,而语言提示则指导风格和语境。为了使UniControl具备处理多样化视觉条件的能力,我们增强了预训练的文本到图像扩散模型,并引入了一个任务感知的HyperNet来调节扩散模型,使其能够同时适应不同的C2I任务。在九个独特的C2I任务上训练后,UniControl展示了令人印象深刻的零样本生成能力,可以处理未见过的视觉条件。实验结果显示,UniControl经常超越了相同模型大小的单任务控制方法的性能。这种控制多样性使UniControl成为可控制视觉生成领域的重大进展。
扩散模型因其出色的生成能力而受到越来越多的关注,但目前在呈现准确和连贯的文本方面仍存在困难。为解决这一问题,我们引入了TextDiffuser,专注于生成具有视觉吸引力且与背景连贯的文本图像。TextDiffuser包括两个阶段:首先,一个Transformer模型生成从文本提示中提取的关键词的布局,然后扩散模型生成以文本提示和生成的布局为条件的图像。此外,我们贡献了第一个带有OCR注释的大规模文本图像数据集MARIO-10M,包含1000万个图像文本对,具有文本识别、检测和字符级分割注释。我们进一步收集了MARIO-Eval基准数据集,作为评估文本呈现质量的综合工具。通过实验和用户研究,我们展示了TextDiffuser具有灵活性和可控性,能够仅使用文本提示或结合文本模板图像创建高质量的文本图像,并进行文本修复以重建带有文本的不完整图像。代码、模型和数据集将在https://aka.ms/textdiffuser上提供。
改善文本表示已经引起了广泛关注,以实现具有表现力的文本转语音(TTS)。然而,现有作品仅通过掩码标记重建任务隐式学习韵律,这导致训练效率低,难以建模韵律。我们提出了CLAPSpeech,这是一个跨模态对比预训练框架,明确学习了相同文本标记在不同上下文下的韵律变化。具体来说,1)我们通过精心设计编码器输入和对比损失,鼓励模型在联合多模态空间中将文本上下文与其相应的韵律模式联系起来;2)我们引入了多尺度预训练流程,以捕获多个层次的韵律模式。我们展示了如何将CLAPSpeech整合到现有的TTS模型中以获得更好的韵律。在三个数据集上的实验不仅表明CLAPSpeech可以改善现有TTS方法的韵律预测,还展示了其适应多种语言和多说话人TTS的泛化能力。我们还深入分析了CLAPSpeech性能背后的原理。消融研究表明了我们方法中每个组件的必要性。源代码和音频样本可在https://clapspeech.github.io 获取。
扩散模型,如稳定扩散,在文本到图像生成方面展现出令人难以置信的性能。由于文本到图像生成通常需要模型生成文本提示中指定的带有细粒度细节和属性的视觉概念,我们是否可以利用预训练扩散模型学到的强大表示来进行诸如图像-文本匹配之类的判别任务?为了回答这个问题,我们提出了一种新颖的方法,称为判别稳定扩散(DSD),它将预训练的文本到图像扩散模型转化为少样本判别学习器。我们的方法利用稳定扩散模型的交叉注意力分数来捕捉视觉和文本信息之间的相互影响,并通过基于注意力的提示学习来微调模型以执行图像-文本匹配。通过在几个基准数据集上将DSD与最先进的方法进行比较,我们展示了利用预训练扩散模型进行判别任务的潜力,取得了在少样本图像-文本匹配上的优越结果。
目标检测已从有限类别扩展到开放词汇。展望未来,一个完整的智能视觉系统需要理解更精细的物体描述和物体部件。本文提出了一种具有预测开放词汇物体及其部分分割能力的检测器。这种能力来自两个设计。首先,我们训练检测器在部分级别、物体级别和图像级别数据的联合上,以建立语言和图像之间的多粒度对齐。其次,我们通过基础物体的密集语义对应将新颖物体解析为其部分。这两种设计使检测器能够充分受益于各种数据源和基础模型。在开放词汇部分分割实验中,我们的方法在PartImageNet的跨数据集泛化上比基准表现提高了3.3sim7.3 mAP,并在Pascal Part的跨类别泛化上将基准表现提高了7.3个新颖AP_{50}。最后,我们训练了一个检测器,能够泛化到各种部分分割数据集,同时实现比特定数据集训练更好的性能。
通常使用自然语言推理(NLI)模型进行事实一致性评估,然而这些模型在评估摘要时表现有限。先前的研究通过合成训练数据改进了这些模型。然而,这些数据通常基于扰动的人工撰写摘要,其特征往往与真实模型生成的摘要不同,并且对可能的事实错误覆盖有限。相比之下,最近大型语言模型(LLMs)直接评估生成任务取得了有希望的结果,但在实际应用中计算成本过高。受到这些限制的启发,我们引入了TrueTeacher,一种通过使用LLM注释多样化模型生成摘要来生成合成数据的方法。与先前的工作不同,TrueTeacher不依赖于人工撰写摘要,并且天生支持多语言。在TRUE基准测试上的实验表明,使用我们的数据训练的学生模型明显优于具有相似容量的最先进模型和LLM教师。在系统研究中,我们将TrueTeacher与现有的合成数据生成方法进行比较,并展示其优越性和对领域转移的稳健性。利用mFACE数据集,我们还展示了我们的方法推广到多语境场景。最后,我们发布了一个使用TrueTeacher生成的包含140万个示例的大规模合成数据集。
我们介绍了我们开发的一种多语言、高效的文本到文本转换器,适用于处理长输入。这个模型被称为mLongT5,它基于LongT5的架构,同时利用了用于预训练mT5和UL2预训练任务的多语言数据集。我们在各种多语言摘要和问答任务上评估了这个模型,结果显示mLongT5相对于现有的多语言模型如mBART或M-BERT表现更强。
符号音乐生成旨在创作音符,可帮助用户创作音乐,例如从头开始生成目标乐器轨道,或基于用户提供的源轨道。考虑到源轨道和目标轨道之间多样且灵活的组合,需要一种能够生成任意轨道的统一模型至关重要。先前的研究未能解决这一需求,原因在于音乐表示和模型架构中固有的限制。为了解决这一需求,我们提出了一种名为GETMusic(`GET'代表GEnerate music Tracks)的统一表示和扩散框架,其中包括一种名为GETScore的新颖音乐表示和一种名为GETDiff的扩散模型。GETScore将音符表示为标记,并以2D结构组织,轨道垂直堆叠,随时间水平进行。在训练期间,轨道被随机选择为目标或源。在前向过程中,目标轨道通过掩盖其标记而受损,而源轨道保持为地面真相。在去噪过程中,GETDiff学会了预测受损的目标标记,条件是源轨道。通过GETScore中的单独轨道和模型的非自回归行为,GETMusic可以明确控制从头开始生成任何目标轨道或基于源轨道的生成。我们进行了涉及六个乐器轨道的音乐生成实验,共计665种组合。GETMusic在各种组合中提供了高质量的结果,并超越了先前针对某些特定组合提出的作品。
视觉文本在人的脑海中唤起图像,而非视觉文本则无法做到。自动检测文本中视觉性的方法将有助于为文本添加相关图像,因为神经文本到图像生成和检索模型的操作基于这样一个内在假设,即输入文本具有视觉性质。我们策划了一个包含3,620个英语句子及其由多个人类标注者提供的视觉性评分的数据集。此外,我们利用包含文本和视觉资产的文档创建了一个远程监督的文档文本和相关图像语料库。我们还提出了一种微调策略,该策略调整了像CLIP这样的大型视觉-语言模型,该模型假设文本和图像之间存在一对一的对应关系,以便将文本的视觉性评分从仅文本输入中进行评分。我们的策略涉及修改模型的对比学习目标,将被识别为非视觉的文本映射到一个通用的空图像,同时将视觉文本与文档中对应的图像进行匹配。我们评估了所提出方法的能力,即(i) 准确分类视觉和非视觉文本,以及(ii) 对被认定为视觉的单词进行关注的心理语言学研究。实证评估表明,我们的方法在所提出的任务上表现优于几种启发式方法和基线模型。此外,为了突显建模文本视觉性的重要性,我们对像DALL-E这样的文本到图像生成系统进行了定性分析。
我们研究了将Transformer序列模型作为控制动力学模型(TDMs)的应用。在DeepMind控制套件的多个实验中,我们发现首先,与基准模型相比,TDMs在单环境学习设置中表现良好。其次,TDMs表现出对未见环境的强大泛化能力,无论是在少样本设置中,其中通用模型经过少量来自目标环境的数据微调,还是在零样本设置中,其中通用模型应用于未见环境且无需进一步训练。我们进一步证明,泛化系统动力学比直接泛化最优行为作为策略要好得多。这使得TDMs成为控制基础模型的一个有前途的组成部分。
我们提出了VideoFactory,这是一个创新的框架,用于生成高质量的开放领域视频。VideoFactory擅长生成无水印、高清晰度(1376x768)、宽屏(16:9)视频,为用户创造引人入胜的体验。根据文本指导生成视频存在重大挑战,如建模空间和时间之间复杂关系以及缺乏大规模文本-视频配对数据。先前的方法通过为视频生成添加一维卷积/注意力模块来扩展预训练的文本到图像生成模型。然而,这些方法忽视了共同建模空间和时间的重要性,不可避免地导致时间失真和文本与视频之间的不对齐。在本文中,我们提出了一种增强空间和时间感知之间交互作用的新方法。具体来说,我们利用在三维窗口中交换的交叉注意力机制,交替在空间和时间块之间扮演“查询”角色,使彼此能够相互加强。为了充分发挥模型在高质量视频生成方面的能力,我们策划了一个名为HD-VG-130M的大规模视频数据集。该数据集包括来自开放领域的1.3亿个文本-视频配对,确保高清晰度、宽屏和无水印特性。客观指标和用户研究表明,我们的方法在每帧质量、时间相关性和文本-视频对齐方面优势明显。
生成式预训练变换器(GPT)已经展示了在自然语言处理方面的巨大成功,并且相关技术已经被应用于分子建模中。考虑到文本是科学发现中最重要的记录,本文提出了MolXPT,一个在SMILES(分子的序列表示)上预训练的文本和分子的统一语言模型。简而言之,我们检测每个序列中的分子名称,并将其替换为相应的SMILES。通过这种方式,SMILES可以利用周围文本的信息,反之亦然。上述包装的序列,来自PubMed的文本序列和来自PubChem的SMILES序列都被送入语言模型进行预训练。实验结果表明,MolXPT在MoleculeNet上的分子性质预测优于强基线模型,与最佳的文本-分子翻译模型相媲美,同时使用不到一半的参数,并且能够实现零调校的分子生成。
尽管扩散模型在生成高质量图像方面取得了巨大进展,但合成一系列既逼真又在时间上连贯的动画帧仍处于起步阶段。虽然可以使用现成的十亿级图像数据集进行图像生成,但收集同等规模的视频数据仍具挑战性。此外,训练视频扩散模型的计算成本远高于其图像对应模型。在本研究中,我们探讨了使用视频数据对预训练图像扩散模型进行微调作为视频合成任务的实际解决方案。我们发现,简单地将图像噪声先验扩展到视频噪声先验会导致次优性能。我们精心设计的视频噪声先验带来了显著更好的性能。大量实验证明,我们的模型“保留自身相关性”(PYoCo)在UCF-101和MSR-VTT基准测试中实现了零样本文本到视频结果的最先进水平。它还在小规模UCF-101基准测试中以比以往更少的计算量使用10倍较小的模型,实现了最先进的视频生成质量。