每日精选AI研究论文及翻译
大型语言模型(LLMs)令人印象深刻的新兴能力之一是生成代码,包括数据库的结构化查询语言(SQL)。对于将自然语言文本转换为SQL查询的任务,即文本到SQL,LLMs的调整在上下文学习和微调设置中至关重要,这取决于使用的调整数据量。在本文中,我们提出了一种基于LLMs的文本到SQL模型SQL-PaLM,利用了PaLM-2,推动了这两种设置的最新技术水平。Few-shot SQL-PaLM基于一种基于执行的自一致提示方法,专为文本到SQL设计,其在Spider测试套件上实现了77.3%的准确性,据我们所知,这是首次通过微调显著超越之前的最新技术水平,提高了4%。此外,我们证明了经过微调的SQL-PALM进一步提高了1%。为了将SQL-PaLM应用于现实场景,我们进一步评估了其在Spider的其他具有挑战性变体上的稳健性,并展示了SQL-PaLM卓越的泛化能力。此外,通过广泛的案例研究,我们展示了基于LLMs的文本到SQL的令人印象深刻的智能能力和各种成功因素。
文本到图像扩散模型能够根据自然语言描述生成令人惊叹的图像,与专业艺术家和摄影师的作品不相上下。然而,这些模型规模庞大,具有复杂的网络架构和数十次去噪迭代,使其在计算上昂贵且运行缓慢。因此,需要高端GPU和基于云的推断来大规模运行扩散模型。这既昂贵又涉及隐私问题,尤其是当用户数据发送给第三方时。为了克服这些挑战,我们提出了一种通用方法,首次实现在移动设备上在不到2秒内运行文本到图像扩散模型。我们通过引入高效的网络架构和改进步骤蒸馏来实现这一目标。具体而言,我们通过识别原始模型的冗余并通过数据蒸馏减少图像解码器的计算,提出了一种高效的UNet。此外,我们通过探索训练策略和引入无分类器指导的正则化,增强了步骤蒸馏。我们在MS-COCO上进行了大量实验,结果显示,我们的模型在8个去噪步骤下比稳定扩散v1.5的50个步骤获得了更好的FID和CLIP分数。我们的工作通过将强大的文本到图像扩散模型带到用户手中,使内容创作民主化。
我们介绍了一种名为Wuerstchen的文本到图像合成新技术,它将竞争性能与前所未有的成本效益和在受限硬件上轻松训练相结合。借鉴了机器学习领域的最新进展,我们的方法利用强潜在图像压缩率下的潜在扩散策略,显著减少了通常与最先进模型相关的计算负担,同时保留甚至增强了生成图像的质量。Wuerstchen在推断时实现了显著的速度改进,从而使实时应用更具可行性。我们方法的一个关键优势在于其仅需9200个GPU小时的适度训练要求,大幅削减了通常的成本,而不会影响最终性能。在与最先进技术的比较中,我们发现该方法具有强大的竞争力。本文打开了一条新的研究道路,优先考虑性能和计算可访问性,从而使复杂AI技术的使用民主化。通过Wuerstchen,我们展示了在文本到图像合成领域迈出的引人注目的一步,为未来研究提供了一条创新路径。
我们提出了GenMM,这是一个生成模型,可以从单个或少量示例序列中“挖掘”尽可能多样化的动作。与现有的数据驱动方法形成鲜明对比,后者通常需要长时间的离线训练,容易出现视觉伪影,并且往往无法处理大型和复杂的骨骼结构。GenMM继承了著名的运动匹配方法的无需训练特性和卓越的质量。GenMM可以在一秒钟内合成高质量的动作,即使是高度复杂和大型的骨骼结构也能胜任。我们的生成框架的核心是生成式运动匹配模块,它利用双向视觉相似性作为生成成本函数进行运动匹配,并在多阶段框架中通过示例运动匹配逐渐优化随机猜测。除了多样化的动作生成,我们通过将其扩展到一些仅通过运动匹配无法实现的场景,包括运动完成、关键帧引导生成、无限循环和运动重组,展示了我们生成框架的多功能性。本文的代码和数据可在https://wyysf-98.github.io/GenMM/找到。
现代深度学习方法通常将输入转换为特定形式。例如,图像分类中最常见的深度学习方法涉及将图像文件字节解码为RGB张量,然后传入神经网络。相反,我们研究直接在文件字节上执行分类,无需在推断时解码文件。使用文件字节作为模型输入使得能够开发可以处理多种输入形式的模型。我们的模型ByteFormer,在TIFF文件字节上直接训练和测试,采用类似于DeiT-Ti的transformer骨干结构配置,实现了77.33%的ImageNet Top-1分类准确率(在RGB图像上操作时为72.2%准确率)。无需修改或超参数调整,ByteFormer在Speech Commands v2数据集的WAV文件上操作时,实现了95.42%的分类准确率(与98.7%的最新准确率相比)。此外,我们展示了ByteFormer在隐私保护推断方面的应用。ByteFormer能够在特定混淆的输入表示上执行推断,而不会损失准确性。我们还展示了ByteFormer在隐私保护相机上执行推断的能力,该相机通过始终屏蔽90%的像素通道而避免形成完整图像,仍然在ImageNet上实现了71.35%的准确率。我们的代码将在https://github.com/apple/ml-cvnets/tree/main/examples/byteformer 上提供。
文本到图像扩散模型展示了从文本概念(例如“医生”,“爱”)生成高质量、多样化图像的无与伦比能力。然而,将文本映射到丰富的视觉表示的内部过程仍然是一个谜。在这项工作中,我们通过将输入文本提示分解为一小组可解释元素来应对理解文本到图像模型中概念表示的挑战。这是通过学习一个伪标记来实现的,该伪标记是模型词汇表中标记的稀疏加权组合,其目标是重建为给定概念生成的图像。应用于最先进的稳定扩散模型,这种分解揭示了概念表示中的非平凡和令人惊讶的结构。例如,我们发现一些概念,如“总统”或“作曲家”,由特定实例(例如“奥巴马”,“拜登”)及其插值所主导。其他概念,如“幸福”,结合了可以是具体的(“家庭”,“笑声”)或抽象的(“友谊”,“情感”)相关术语。除了深入了解稳定扩散的内部工作机制外,我们的方法还能实现单图像分解为标记、偏见检测和缓解,以及语义图像操作等应用。我们的代码将在以下网址提供:https://hila-chefer.github.io/Conceptor/
从我们的想象中的事件或场景中创建生动的视频是一种非常迷人的体验。最近文本到视频合成方面的进展揭示了只需提示就能实现这一目标的潜力。虽然文本在传达整体场景背景方面很方便,但可能不足以精确控制。在本文中,我们通过利用文本作为上下文描述和运动结构(例如逐帧深度)作为具体指导,探讨定制视频生成。我们的方法被称为“制作您的视频”,涉及使用预先训练用于静态图像合成的潜在扩散模型进行联合条件视频生成,然后通过引入时间模块促进视频生成。这种两阶段学习方案不仅减少了所需的计算资源,还通过将仅在图像数据集中可用的丰富概念转移到视频生成中来提高性能。此外,我们使用了一种简单而有效的因果注意力蒙版策略,以实现更长的视频合成,从而有效地减轻了潜在的质量下降。实验结果显示我们的方法在时间连贯性和对用户指导的忠实度方面优于现有基准线。此外,我们的模型实现了几种引人入胜的应用,展示了实际使用的潜力。
我们研究了利用文本到图像模型生成的合成图像来学习视觉表示的潜力。鉴于这类模型在生成高质量图像方面表现出色,这是一个自然的问题。我们具体考虑了Stable Diffusion,这是一种领先的开源文本到图像模型。我们展示了:(1) 当生成模型配置了适当的无分类器指导尺度时,在合成图像上进行自监督方法训练可以达到或超越真实图像对应物;(2) 通过将从相同文本提示生成的多个图像视为彼此的正例,我们开发了一种多正对比学习方法,我们称之为StableRep。仅使用合成图像,StableRep学习的表示在大规模数据集上超越了SimCLR和CLIP使用相同文本提示集和对应真实图像学习的表示性能。当我们进一步添加语言监督时,使用2000万合成图像训练的StableRep的准确性优于使用5000万真实图像训练的CLIP。
最近,个性化文本到图像生成使用扩散模型被提出并引起了广泛关注。给定包含新概念(例如独特玩具)的少量图像,我们旨在调整生成模型以捕捉新概念的精细视觉细节,并根据文本条件生成逼真的图像。我们提出了一种名为ViCo的插件方法,用于快速轻量化的个性化生成。具体来说,我们提出了一个图像注意力模块,以在基于补丁的视觉语义上调节扩散过程。我们引入了一个基于注意力的对象蒙版,几乎不需要额外成本。此外,我们设计了一个简单的正则化方法,基于文本-图像注意力映射的内在属性,以减轻常见的过拟合降级问题。与许多现有模型不同,我们的方法不对原始扩散模型的任何参数进行微调。这使得模型部署更加灵活和可转移。通过仅进行轻量级参数训练(约扩散 U-Net 的 6%),我们的方法在定性和定量上均实现了与所有最先进模型相媲美甚至更好的性能。
自监督学习(SSL)最近已成为在视觉、文本和语音领域训练通用模型的有前途的范式,其基于大规模数据。虽然SSL在语音和音频方面已被证明有效,但其在音乐音频中的应用尚未得到充分探讨。这主要是由于建模音乐知识所面临的独特挑战,特别是音乐的音调和音高特征。为了填补这一研究空白,我们提出了一个具有大规模自监督训练的声学音乐理解模型(MERT),该模型融入了教师模型,以在掩码语言建模(MLM)风格的声学预训练中提供伪标签。在我们的探索中,我们确定了一个优越的教师模型组合,其在性能方面优于传统的语音和音频方法。这个组合包括基于残差矢量量化 - 变分自动编码器(RVQ-VAE)的声学教师和基于常量Q变换(CQT)的音乐教师。这些教师有效地指导我们的学生模型,即一种类似BERT风格的变压器编码器,以更好地建模音乐音频。此外,我们引入了批内噪声混合增强以增强表示的稳健性。此外,我们探索了各种设置以克服声学语言模型预训练中的不稳定性,这使我们设计的范式能够从95M扩展到330M参数。实验结果表明,我们的模型可以在14个音乐理解任务上实现泛化并表现良好,并获得了最先进的整体得分。代码和模型可在以下网址找到:https://github.com/yizhilll/MERT。
存在对定制预训练大型文本到图像模型(如稳定扩散)进行个性化需求,以生成创新概念,比如用户本身。然而,先前定制方法中新增的概念在训练过程中通常显示出比原始概念更弱的组合能力,即使在给定多幅图像的情况下也是如此。因此,我们提出了一种新的个性化方法,允许将独特个体无缝集成到预训练扩散模型中,仅需一张面部照片和仅 1024 个可学习参数,在 3 分钟内完成。因此,我们可以轻松生成这个人的惊艳图像,无论是在任何姿势或位置,与任何人互动,从文本提示中想象的任何事情。为实现这一目标,我们首先分析并构建了一个明确定义的名人基础,从预训练大型文本编码器的嵌入空间中。然后,给定一个面部照片作为目标身份,我们通过优化这个基础的权重并锁定所有其他参数来生成其自己的嵌入。在新的定制模型中,由于提出的名人基础,新身份展示出比先前个性化方法更好的概念组合能力。此外,我们的模型还可以同时学习多个新身份,并在先前的定制模型失败时彼此互动。代码将会发布。
大规模生成模型能够根据详细的文本描述生成高质量图像。然而,图像的许多方面通过文本很难或不可能传达。我们引入自我引导,这是一种通过引导扩散模型的内部表示来提供对生成图像更大控制的方法。我们展示了可以从这些表示中提取形状、位置和物体外观等属性,并用于引导采样。自我引导的工作原理类似于分类器引导,但使用预训练模型本身中存在的信号,无需额外的模型或训练。我们展示了如何组合一组简单属性来执行具有挑战性的图像操作,例如修改物体的位置或大小,将一个图像中物体的外观与另一个图像的布局合并,将多个图像中的物体组合成一个图像等。我们还展示了自我引导可用于编辑真实图像。有关结果和交互式演示,请访问我们的项目页面:https://dave.ml/selfguidance/
基于Transformer的大型语言模型取得了巨大的实证成功。然而,随着它们被广泛部署,人们越来越需要更好地理解它们的内部机制,以使它们更加可靠。这些模型似乎存储了大量来自训练数据的知识,并且能够快速适应其上下文或提示中提供的新信息。我们研究了Transformer如何平衡这两种知识类型,通过考虑一个合成设置,在这个设置中,token是根据全局或特定上下文的双字分布生成的。通过对简化的双层Transformer的训练过程进行仔细的实证分析,我们阐明了全局双字的快速学习以及用于上下文中的双字的“归纳头”机制的较慢发展。我们强调了权重矩阵作为联想记忆的作用,提供了关于梯度如何在训练过程中实现学习的理论见解,并研究了数据分布特性的作用。
从文本描述生成音乐是一种用户友好的模式,因为文本是一个相对容易让用户参与的界面。虽然一些方法利用文本来控制音乐音频生成,但对用户来说,在生成的音频中编辑音乐元素是具有挑战性的。相比之下,符号音乐提供了易于编辑的便利性,使用户更容易操纵特定的音乐元素。在本文中,我们提出了MuseCoco,它从文本描述中生成符号音乐,以音乐属性作为桥梁,将任务分解为文本到属性理解和属性到音乐生成两个阶段。MuseCoco代表音乐创作副驾驶,赋予音乐家直接从给定文本描述中生成音乐的能力,相较于完全从头开始创作音乐,提供了显著的效率提升。该系统具有两个主要优势:首先,它具有数据效率。在属性到音乐生成阶段,属性可以直接从音乐序列中提取,使模型训练自监督。在文本到属性理解阶段,文本由基于定义的属性模板的ChatGPT合成和完善。其次,该系统可以通过基于属性或基于文本的方法,在文本描述中实现对特定属性的精确控制,并提供多种控制选项。在音乐性、可控性和整体评分方面,MuseCoco在至少1.27、1.08和1.32的指标上优于基准系统。此外,客观控制准确性也有约20%的显著提升。此外,我们开发了一个拥有12亿参数的强大大规模模型,展示了出色的可控性和音乐性。
代码智能在改变现代软件工程中发挥着关键作用。最近,基于深度学习的模型,特别是基于Transformer的大型语言模型(LLMs),通过利用大量开源代码数据和编程语言特性展现出了在处理这些任务方面的显著潜力。然而,这类模型的开发和部署通常需要对机器学习和软件工程两者都具备专业知识,这为模型的采用设置了一道障碍。在本文中,我们介绍了CodeTF,一个面向最先进的代码LLMs和代码智能的开源Transformer库。遵循模块化设计和可扩展框架的原则,我们设计了CodeTF,提供了统一接口,以实现在不同类型的模型、数据集和任务之间快速访问和开发。我们的库支持一系列预训练的代码LLM模型和流行的代码基准,包括一个标准化接口,以高效地训练和提供代码LLMs,以及语言特定解析器和用于提取代码属性的实用功能。在本文中,我们描述了设计原则、架构、关键模块和组件,并与其他相关库工具进行了比较。最后,我们希望CodeTF能够弥合机器学习/生成AI和软件工程之间的差距,为开发人员、研究人员和从业者提供全面的开源解决方案。
文本条件扩散模型能够生成内容多样的高保真图像。然而,语言表示经常对所设想的目标图像描述模糊不清,需要引入额外的控制信号以增强文本引导的扩散模型的效力。在这项工作中,我们提出了Cocktail,这是一个将各种模态混合到一个嵌入中的流程,与一个广义ControlNet(gControlNet)、一个可控规范化(ControlNorm)以及一个空间引导采样方法相结合,以实现文本条件扩散模型的多模态和空间精细控制。具体来说,我们引入了一个超网络gControlNet,专门用于将来自不同模态的控制信号与预训练扩散模型融合和融合。gControlNet能够接受灵活的模态信号,包括同时接收任意组合的模态信号或多个模态信号的补充融合。然后,根据我们提出的ControlNorm,将控制信号融合并注入到骨干模型中。此外,我们先进的空间引导采样方法有效地将控制信号纳入指定区域,从而避免在生成的图像中出现不需要的对象。我们展示了我们的方法在控制各种模态方面的结果,证明了高质量的综合和对多个外部信号的保真度。
我们介绍了ObjectFolder Benchmark,这是一个包含10个任务的基准套件,用于多感官以物体为中心的学习,围绕着视觉、听觉和触觉的物体识别、重建和操作。我们还推出了ObjectFolder Real数据集,其中包括100个真实世界家用物品的多感官测量数据,构建在一个新设计的流程之上,用于收集真实物体的3D网格、视频、冲击声音和触觉读数。我们对来自ObjectFolder的1,000个多感官神经物体以及来自ObjectFolder Real的真实多感官数据进行了系统化基准测试。我们的结果表明多感官感知的重要性,并揭示了视觉、音频和触觉在不同以物体为中心的学习任务中的各自作用。通过公开发布我们的数据集和基准套件,我们希望在计算机视觉、机器人技术等领域推动并促进多感官以物体为中心的学习的新研究。项目页面:https://objectfolder.stanford.edu
基于扩散模型的方法在数据驱动规划中显示出潜力,但缺乏安全保证,因此难以应用于安全关键应用。为解决这些挑战,我们提出了一种名为SafeDiffuser的新方法,通过使用一类控制屏障函数来确保扩散概率模型满足规范。我们方法的关键思想是将所提出的有限时间扩散不变性嵌入到去噪扩散过程中,从而实现可信赖的扩散数据生成。此外,我们证明了通过生成模型实现的有限时间扩散不变性方法不仅保持了泛化性能,还在安全数据生成中创造了鲁棒性。我们在一系列安全规划任务上测试了我们的方法,包括迷宫路径生成、四足机器人运动和三维空间操作,结果显示了相对于普通扩散模型的鲁棒性和保证的优势。
近年来在自然语言处理和计算机视觉领域取得的重大成功与Transformer密不可分。Transformer具有一个基本统一的架构,其中的层交替进行前馈和自注意力操作,以构建一个深度网络。在本研究中,我们探讨了这种设计选择,并发现具有不同层基元排列的更复杂的模块可能更有效。基于这一观察,我们开发了一个名为Brainformer的复杂模块,其中包括各种层,如稀疏门控前馈层、密集前馈层、注意力层以及各种形式的层归一化和激活函数。Brainformer在质量和效率方面始终优于最先进的密集和稀疏Transformer。每个标记激活参数为80亿的Brainformer模型表现出比其GLaM对应模型快2倍的训练收敛速度和快5倍的步长时间。在下游任务评估中,相较于具有相似激活参数数量的GLaM,Brainformer在微调后的SuperGLUE得分高出3%。最后,Brainformer在少样本评估中大幅优于使用类似计算量的NAS获得的Primer密集模型。