每日精选AI研究论文及翻译
我们介绍了Voyager,这是第一个由LLM驱动的基于Minecraft的具身式终身学习代理,它在不需要人类干预的情况下持续探索世界、获得多样化技能,并进行新颖发现。Voyager由三个关键组件组成:1)最大化探索的自动课程设置,2)用于存储和检索复杂行为的不断增长的可执行代码技能库,以及3)结合环境反馈、执行错误和自我验证的新的迭代提示机制,用于程序改进。Voyager通过黑盒查询与GPT-4进行交互,从而避免了对模型参数进行微调的需要。Voyager开发的技能具有时间上的延伸性、可解释性和组合性,这加速了代理的能力并减轻了灾难性遗忘。从经验上看,Voyager展现出强大的上下文终身学习能力,并在玩Minecraft方面表现出色。它获得了比之前最先进技术更多的独特物品(3.3倍)、行进距离更长(2.3倍),并且解锁关键技术树里程碑的速度高达之前的15.3倍。Voyager能够在新的Minecraft世界中利用学到的技能库从零开始解决新任务,而其他技术则难以泛化。我们在https://voyager.minedojo.org/开放了完整的代码库和提示。
得分蒸馏采样(SDS)在文本到三维生成中表现出巨大潜力,通过蒸馏预训练的大规模文本到图像扩散模型,但存在过饱和、过平滑和低多样性问题。在这项工作中,我们建议将三维参数建模为随机变量,而不是像在SDS中那样作为常数,并提出变分得分蒸馏(VSD),这是一个基于粒子的变分框架,用于解释和解决文本到三维生成中提到的问题。我们展示了SDS是VSD的一个特例,并导致具有小和大CFG权重的低质量样本。相比之下,VSD在各种CFG权重下表现良好,作为从扩散模型中的祖先采样,同时通过常见的CFG权重(即7.5)提高了多样性和样本质量。我们进一步提出了文本到三维设计空间的各种改进,如蒸馏时间表和密度初始化,这些改进与蒸馏算法正交,但尚未得到很好的探索。我们的整体方法,命名为ProlificDreamer,可以生成高渲染分辨率(即512x512)和高保真度的NeRF,具有丰富的结构和复杂效果(如烟雾和水滴)。此外,由NeRF初始化,通过VSD微调的网格精细详细且逼真。项目页面:https://ml.cs.tsinghua.edu.cn/prolificdreamer/
一种新兴的廉价改进较弱语言模型的方法是在更强大的模型(如ChatGPT这样的专有系统,例如Alpaca、Self-Instruct等)的输出上进行微调。这种方法旨在通过较弱的开源模型廉价模仿专有模型的能力。在这项工作中,我们对这种方法进行了批判性分析。我们首先微调了一系列模仿ChatGPT的LM,使用不同的基础模型大小(1.5B至13B)、数据来源和模仿数据量(0.3M至150M标记)。然后,我们使用众包评估员和经典NLP基准来评估这些模型。最初,我们对我们的模仿模型的输出质量感到惊讶——它们似乎更擅长遵循指令,并且众包工作者评价它们的输出与ChatGPT相媲美。然而,当进行更有针对性的自动评估时,我们发现在模仿数据中没有得到充分支持的任务上,模仿模型几乎没有缩小基础LM与ChatGPT之间的差距。我们表明,这些性能差异可能会逃过人类评估员的注意,因为模仿模型擅长模仿ChatGPT的风格,但不擅长模仿其事实性。总的来说,我们得出结论认为,模型模仿是一种虚假承诺:在开源和闭源LM之间存在着实质性的能力差距,目前的方法只能通过大量的模仿数据或使用更有能力的基础LM来弥合这一差距。因此,我们认为,改进开源模型的最有效举措是解决开发更好的基础LM这一困难挑战,而不是采取模仿专有系统的捷径。
稳定扩散模型(SDMs)在文本到图像(T2I)生成方面取得了出色的结果,但也伴随着大量的计算需求。为解决这一问题,最近关于高效SDMs的研究优先考虑减少采样步骤的数量和利用网络量化。与这些方向相反,本研究突出了通过引入去块知识蒸馏SDMs(BK-SDMs)来强调经典架构压缩在通用T2I合成中的作用。我们从SDMs的U-Net中消除了多个残差和注意力块,获得了超过30%的参数数量、每个采样步骤的MACs以及延迟的减少。我们仅使用0.22M LAION对进行基于蒸馏的预训练(少于完整训练对的0.1%)在单个A100 GPU上进行。尽管在有限资源下训练,我们的紧凑模型可以通过转移学习获益模仿原始SDM,并在零样本MS-COCO基准测试上与更大的数十亿参数模型取得竞争力。此外,我们展示了我们的轻量级预训练模型在通过DreamBooth微调进行个性化生成中的适用性。
文本到图像扩散模型能够根据用户提供的文本提示生成多样且高保真度的图像。最近的研究将这些模型扩展到支持文本引导的图像编辑。虽然文本引导是用户直观的编辑界面,但往往无法确保准确传达用户所表达的概念。为了解决这个问题,我们提出了Custom-Edit,其中我们(i)使用少量参考图像定制扩散模型,然后(ii)进行文本引导编辑。我们的关键发现是,仅定制与语言相关的参数并使用增强的提示可以显著提高参考相似性,同时保持源相似性。此外,我们提供了每个定制和编辑过程的步骤。我们比较了流行的定制方法,并在各种数据集上验证了我们的发现。
最近音乐生成领域取得了显著进展,这主要得益于最先进的MusicLM。该模型包括三个层次的LM,分别用于语义建模、粗粒度声学建模和细粒度声学建模。然而,使用MusicLM 进行采样需要逐个通过这些LM 进行处理,以获得细粒度的声学标记,这使得计算成本高昂,难以实现实时生成。以与MusicLM 相媲美的质量进行高效音乐生成仍然是一个重大挑战。在本文中,我们提出了MeLoDy(M代表音乐;L代表LM;D代表扩散),这是一种LM引导的扩散模型,可以生成具有最先进质量的音乐音频,同时在采样10秒或30秒音乐时分别减少了MusicLM 中95.7%或99.6%的前向传递。MeLoDy继承了MusicLM 中的最高级LM 用于语义建模,并应用了一种新颖的双路径扩散(DPD)模型和音频VAE-GAN,以高效地将条件语义标记解码为波形。DPD 被提出以通过在每个去噪步骤中的交叉注意力有效地将语义信息整合到潜在段中,从而同时建模粗粒度和细粒度声学。我们的实验结果表明MeLoDy 的优越性,不仅在采样速度和无限延续生成方面具有实际优势,而且在音乐性、音频质量和文本相关性方面也达到了最先进水平。 我们的样本可在https://Efficient-MeLoDy.github.io/ 上获取。
我们提出了流形扩散场(MDF),这是一种学习定义在黎曼流形上的连续函数生成模型的方法。借鉴了谱几何分析的见解,我们通过 Laplace-Beltrami 算子的特征函数在流形上定义了一个内在坐标系。MDF使用由一组多个输入-输出对形成的显式参数化来表示函数。我们的方法允许在流形上对连续函数进行采样,并且对流形的刚性和等距变换具有不变性。在多个数据集和流形上的实证结果表明,MDF能够比先前的方法更好地捕捉这些函数的分布,具有更好的多样性和保真度。
文本到图像扩散模型现在能够生成与真实图像往往难以区分的图像。为了生成这样的图像,这些模型必须理解要生成的对象的语义。在这项工作中,我们展示了在没有任何训练的情况下,可以利用扩散模型内的这种语义知识来找到语义对应关系 -- 多个图像中具有相同语义含义的位置。具体而言,给定一幅图像,我们优化这些模型的提示嵌入,使其最大程度地关注感兴趣的区域。这些优化的嵌入捕获了关于位置的语义信息,然后可以转移到另一幅图像上。通过这样做,我们在PF-Willow数据集上获得了与强监督最先进技术相当的结果,并且在PF-Willow、CUB-200和SPair-71k数据集上明显优于任何现有的弱监督或无监督方法(对于SPair-71k数据集,相对提高了20.9%)。