每日精选AI研究论文及翻译
将生成模型的输出添加水印是一项关键技术,用于追踪版权并防止AI生成内容可能带来的潜在危害。本文介绍了一种名为“树环水印”的新技术,可稳健地为扩散模型的输出生成指纹。与现有方法在采样后对图像进行事后修改不同,“树环水印”微妙地影响整个采样过程,从而生成一个对人类不可见的模型指纹。水印将一个模式嵌入到用于采样的初始噪声向量中。这些模式在傅立叶空间中结构化,使其对卷积、裁剪、膨胀、翻转和旋转保持不变。在图像生成后,通过反转扩散过程来检测水印信号,以检索噪声向量,然后检查其中是否嵌入了信号。我们证明这种技术可以轻松应用于任意扩散模型,包括文本条件的稳定扩散,作为一个插件,对FID损失微乎其微。我们的水印在图像空间中语义隐藏,比当前部署的水印替代方案更加稳健。代码可在github.com/YuxinWenRick/tree-ring-watermark找到。
Transformer大型语言模型(LLMs)以其在需要复杂多步推理的任务上表现出色而受到赞誉。然而,这些模型同时在一些看似琐碎的问题上显示出失败。这引发了一个问题:这些错误是偶然的,还是表明了更重大的局限性?为了揭开Transformer的神秘面纱,我们研究了这些模型在三个代表性的组合任务中的极限--多位数乘法、逻辑格子谜题和一个经典的动态规划问题。这些任务需要将问题分解为子步骤,并将这些步骤综合成一个精确的答案。我们将组合任务制定为计算图,以系统化地量化复杂性水平,并将推理步骤分解为中间子过程。我们的实证研究结果表明,Transformer通过将多步组合推理简化为线性化子图匹配来解决组合任务,而不一定发展系统化的问题解决技能。为了完成我们的实证研究,我们提出了关于抽象多步推理问题的理论论证,强调Transformer的性能将随着任务复杂性的增加而迅速下降。
通过优化3D模型,自动文本到3D合成取得了显著进展。现有方法通常依赖于预训练的文本到图像生成模型,如扩散模型,为神经辐射场(NeRFs)的2D渲染提供分数,并用于优化NeRFs。然而,由于对3D几何的理解有限,这些方法经常在多个视图之间遇到伪影和不一致性。为了解决这些限制,我们提出了使用扩散先验重新制定优化损失的方法。此外,我们引入了一种解锁扩散先验潜力的新型训练方法。为了改善3D几何表示,我们对NeRF渲染图像应用辅助深度监督,并对NeRFs的密度场进行正则化。大量实验证明了我们的方法优于先前的工作,实现了先进的照片逼真度和改善的多视图一致性。
最近图文扩散模型的进展刺激了对大规模3D生成模型的研究兴趣。然而,有限的多样化3D资源的可用性给学习带来了重大挑战。本文提出了一种新颖的方法,用于生成高质量、风格化的3D头像,该方法利用预训练的图文扩散模型进行数据生成,并利用基于生成对抗网络(GAN)的3D生成网络进行训练。我们的方法利用图文扩散模型提供的外观和几何学的全面先验知识来生成不同风格的头像的多视角图像。在数据生成过程中,我们利用从现有3D模型中提取的姿势来引导多视角图像的生成。为了解决数据中姿势与图像之间的不对齐问题,我们研究了视角特定的提示,并开发了一个粗到细的GAN训练鉴别器。我们还深入研究了与属性相关的提示,以增加生成头像的多样性。此外,我们在StyleGAN的风格空间内开发了一个潜在扩散模型,以便基于图像输入生成头像。我们的方法在视觉质量和生成头像的多样性方面表现出优越的性能,超过了当前最先进的方法。
本文介绍了一个名为“LibriTTS-R”的新语音数据集,专为文本到语音(TTS)应用而设计。该数据集是通过将语音恢复应用于LibriTTS语料库而衍生而来,该语料库包括来自2,456位发言者的585小时24 kHz采样率的语音数据以及相应的文本。LibriTTS-R的组成样本与LibriTTS相同,只是声音质量得到了改善。实验结果表明,与LibriTTS中的样本相比,LibriTTS-R的地面真实样本显示出显著改善的声音质量。此外,使用LibriTTS-R训练的神经端到端TTS实现了与地面真实样本相媲美的语音自然度。该语料库可从http://www.openslr.org/141/免费下载。
最近扩散模型的进展使得可以利用文本提示生成高保真度图像。然而,生成图像与真实世界图像之间存在领域差距,这在生成真实世界图像的高质量变体方面构成挑战。我们的研究发现,这种领域差距源于不同扩散过程中潜在分布的差距。为解决这一问题,我们提出了一种名为实际图像变体对齐(RIVAL)的新型推理流程,利用扩散模型从单个图像示例生成图像变体。我们的流程通过将图像生成过程与源图像的反演链对齐,提升了图像变体的生成质量。具体来说,我们展示了逐步潜在分布对齐对于生成高质量变体至关重要。为实现这一目标,我们设计了跨图像自注意注入以实现特征交互,并设计了逐步分布归一化以对齐潜在特征。将这些对齐过程纳入扩散模型使得RIVAL能够生成高质量图像变体,无需进一步参数优化。我们的实验结果表明,我们提出的方法在语义条件相似性和感知质量方面优于现有方法。此外,这种通用推理流程可以轻松应用于其他基于扩散的生成任务,如基于图像条件的文本到图像生成和基于示例的图像修复。
大型语言模型(LLMs)可以从少数上下文示例中学习执行各种自然语言任务。然而,对于生成高度结构化语言(例如,语义解析到复杂领域特定语言)的字符串,LLM很难仅通过少数示例进行泛化。我们探讨了语法提示作为一种简单方法,使LLMs能够在上下文学习过程中利用外部知识和领域特定约束,这些约束通过Backus-Naur形式(BNF)表示的语法来表达。语法提示通过将每个演示示例与一个专门的语法相结合,该语法最少地足以生成特定的输出示例,其中专门的语法是完整DSL语法的子集。对于推理,LLM首先根据测试输入预测BNF语法,然后根据语法规则生成输出。实验证明,语法提示可以使LLMs在各种DSL生成任务上表现出竞争力,包括语义解析(SMCalFlow,Overnight,GeoQuery),PDDL规划,甚至分子生成(SMILES)。
我们介绍了扩展PaLI-X的训练配方和结果,这是一个多语言视觉与语言模型,无论是在组件规模还是训练任务混合的广度方面都有所提升。我们的模型在各种各样且复杂的任务上取得了新的性能水平,包括多个基于图像的字幕生成和问答任务、基于图像的文档理解和少样本(上下文内)学习,以及目标检测、视频问答和视频字幕生成。PaLI-X在大多数视觉与语言基准测试中取得了最新的技术水平(25+个)。最后,我们观察到新兴的能力,例如复杂计数和多语言目标检测,这些任务并未明确包含在训练中。
大规模扩散模型在文本转音频(T2A)合成任务中取得了成功,但通常存在常见问题,如语义不对齐和时间一致性差,这是由于自然语言理解有限和数据稀缺所致。此外,在T2A工作中广泛使用的二维空间结构在生成可变长度音频样本时会导致音频质量不佳,因为它们未能充分优先考虑时间信息。为了解决这些挑战,我们提出了基于潜在扩散的Make-an-Audio 2 T2A方法,它在Make-an-Audio的成功基础上构建。我们的方法包括多种技术来改善语义对齐和时间一致性:首先,我们使用预训练的大型语言模型(LLMs)将文本解析为结构化的<事件和顺序>对,以更好地捕获时间信息。我们还引入另一个结构化文本编码器,在扩散去噪过程中帮助学习语义对齐。为了提高可变长度生成的性能并增强时间信息提取,我们设计了一个基于前馈Transformer的扩散去噪器。最后,我们使用LLMs将大量音频标签数据增强和转换为音频文本数据集,以缓解时间数据稀缺的问题。大量实验证明,我们的方法在客观和主观指标上优于基准模型,并在时间信息理解、语义一致性和音质方面取得显著进展。
本文提出了一种方法,可以快速将动态3D头像调整到任意文本描述的新颖风格。在现有的头像风格化方法中,直接优化方法可以为任意风格产生出色的结果,但速度慢且需要针对每个新输入重新进行优化过程。使用在大量风格图像数据集上训练的前馈网络的快速近似方法可以快速生成新输入的结果,但往往不太适用于新颖风格,并且在质量上表现不佳。因此,我们研究了一种新方法,AlteredAvatar,它结合了这两种方法,使用元学习框架。在内循环中,模型学习优化以匹配单个目标风格;而在外循环中,模型学习有效地跨多种风格进行风格化。训练后,AlteredAvatar学习到一种初始化方法,可以在少量更新步骤内快速适应新颖风格,这些风格可以通过文本、参考图像或二者的组合给出。我们展示AlteredAvatar可以在速度、灵活性和质量之间取得良好平衡,同时在广泛的新视角和面部表情中保持一致性。
我们提出了一种自动化算法,通过生成语言引导的反事实测试图像(LANCE)来对经过训练的视觉模型进行压力测试。我们的方法利用了最近在大型语言建模和基于文本的图像编辑方面取得的进展,通过增加一个多样、逼真且具有挑战性的测试图像套件,而无需改变模型权重,来扩充一个IID测试集。我们在我们生成的数据上对一系列预训练模型的性能进行基准测试,并观察到显著且一致的性能下降。我们进一步分析了模型对不同类型编辑的敏感性,并展示了它在揭示ImageNet中以前未知的类别级模型偏见方面的适用性。
涉及几何数据的问题出现在各个领域,包括计算机视觉、机器人技术、化学和物理学。这类数据可以采用多种形式,如点、方向向量、平面或变换,但迄今为止还没有一种单一的架构可以应用于如此广泛的几何类型,并尊重它们的对称性。在本文中,我们介绍了几何代数变换器(GATr),这是一种通用的用于几何数据的架构。GATr在射影几何代数中表示输入、输出和隐藏状态,射影几何代数提供了常见几何对象的高效16维向量空间表示,以及作用于它们的运算符。GATr对于3D欧几里得空间的对称群E(3)是等变的。作为一个变换器,GATr具有可扩展性、表现力和多功能性。在n体建模和机器人规划的实验中,GATr相对于非几何基线表现出明显的改进。
扩散模型是当前图像生成领域的最先进技术,通过将生成过程分解为许多精细的去噪步骤来合成高质量图像。尽管扩散模型表现良好,但在计算上代价高昂,需要进行许多神经功能评估(NFEs)。在这项工作中,我们提出了一种基于随时中止的扩散方法,可以在完成之前的任意时间停止生成可行图像。利用现有预训练的扩散模型,我们展示了生成方案可以重新组合为两个嵌套的扩散过程,实现对生成图像的快速迭代改进。我们使用这种嵌套扩散方法来窥视生成过程,并根据用户的即时偏好实现灵活调度。在对ImageNet和基于稳定扩散的文本到图像生成的实验中,我们展示了我们的方法在中间生成质量方面在定性和定量上远远超过原始扩散模型,同时最终缓慢生成的结果保持可比性。
图像广告理解是一项具有广泛实际应用的关键任务。尽管涉及多样的非典型场景、现实世界实体以及对场景文本的推理,因此如何解释图像广告相对较少被探讨,特别是在具有出色泛化能力和适应性的基础视觉语言模型(VLMs)时代。在本文中,我们通过预训练的VLMs的视角进行了第一次对图像广告理解的实证研究。我们对将这些VLMs调整到图像广告理解中的实际挑战进行了基准测试和揭示。我们提出了一种简单的特征调整策略,以有效融合图像广告的多模态信息,并进一步赋予其对现实世界实体的知识。我们希望我们的研究能够引起更多对与广告行业广泛相关的图像广告理解的关注。