每日精选AI研究论文及翻译
目前最先进的文本到图像(T2I)模型需要大量的训练成本(例如,数百万 GPU 小时),严重阻碍了AIGC社区的基础创新,同时增加了二氧化碳排放量。本文介绍了PIXART-alpha,这是一种基于Transformer的T2I扩散模型,其图像生成质量与最先进的图像生成器(例如Imagen、SDXL,甚至Midjourney)相媲美,达到接近商业应用标准。此外,它支持高分辨率图像合成,最高可达1024像素分辨率,且训练成本低,如图1和2所示。为实现这一目标,提出了三个核心设计:(1)训练策略分解:我们设计了三个不同的训练步骤,分别优化像素依赖性、文本-图像对齐和图像美学质量;(2)高效T2I Transformer:我们将交叉注意力模块整合到扩散Transformer(DiT)中,以注入文本条件并简化计算密集型的类别条件分支;(3)高信息量数据:我们强调文本-图像对中概念密度的重要性,并利用大型视觉-语言模型自动标记密集的伪标题,以辅助文本-图像对齐学习。因此,PIXART-alpha的训练速度明显超过现有的大规模T2I模型,例如,PIXART-alpha仅需稳定扩散v1.5的训练时间的10.8%(675 vs. 6,250 A100 GPU天),节省了近300,000美元(26,000 vs. 320,000美元),减少了90%的二氧化碳排放。此外,与更大的SOTA模型RAPHAEL相比,我们的训练成本仅为1%。大量实验证明,PIXART-alpha在图像质量、艺术性和语义控制方面表现出色。我们希望PIXART-alpha能为AIGC社区和初创公司提供新的见解,加速他们从零开始构建自己的高质量且低成本的生成模型。
大型语言模型(LLMs)在开放式文本生成任务中展示了卓越的能力。然而,这些任务固有的开放性意味着模型响应的质量始终有改进的空间。为了解决这一挑战,已经提出了各种方法来增强LLMs的性能。近来,越来越多的关注点集中在使LLMs能够自我改进其响应质量上,从而减少对收集多样化和高质量训练数据的大量人工标注工作的依赖。最近,基于提示的方法在自我改进方法中得到了广泛探讨,因为它们具有高效性和便利性。然而,这些方法通常需要明确和详尽地编写提示作为LLMs的输入。手动推导并提供与现实世界复杂目标(例如更有帮助和更少有害)的改进相关的所有必要提示是昂贵且具有挑战性的。为此,我们提出了一种隐式自我改进(PIT)框架,该框架从人类偏好数据中隐式学习改进目标。PIT仅需要用于训练奖励模型的偏好数据,无需额外的人力工作。具体而言,我们重新制定了强化学习从人类反馈(RLHF)中的训练目标,我们不是为了最大化给定输入的响应质量,而是为了最大化响应质量与参考响应之间的质量差距。通过这种方式,PIT在隐式训练中具有更好地与人类偏好相一致的改进目标。在两个真实世界数据集和一个合成数据集上的实验表明,我们的方法明显优于基于提示的方法。
生成扩散模型为文本到图像生成提供了强大的先验知识,因此可作为条件生成任务(如图像编辑、恢复和超分辨率)的基础。然而,扩散模型的一个主要局限是其较慢的采样时间。为了解决这一挑战,我们提出了一种新颖的条件蒸馏方法,旨在通过图像条件辅助扩散先验,实现仅需少量步骤的条件采样。我们通过联合学习直接在单个阶段中对无条件预训练进行蒸馏,大大简化了先前涉及蒸馏和条件微调的两阶段程序。此外,我们的方法实现了一种新的参数高效蒸馏机制,仅使用少量额外参数与共享冻结的无条件主干网络对每个任务进行蒸馏。在包括超分辨率、图像编辑和深度到图像生成在内的多个任务上的实验表明,我们的方法在相同采样时间内优于现有的蒸馏技术。值得注意的是,我们的方法是第一个能够与速度慢得多的精调条件扩散模型相匹配的蒸馏策略。