具有潜在对抗扩散蒸馏的快速高分辨率图像合成Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion
Distillation
扩散模型是图像和视频合成领域进展的主要推动力,但存在推断速度较慢的问题。蒸馏方法,如最近引入的对抗性扩散蒸馏(ADD),旨在将模型从多步推断转变为单步推断,尽管这会导致昂贵且难以优化,因为它依赖于一个固定的预训练的DINOv2鉴别器。我们引入了潜在对抗性扩散蒸馏(LADD),这是一种新颖的蒸馏方法,克服了ADD的局限性。与基于像素的ADD相比,LADD利用了预训练潜在扩散模型的生成特征。这种方法简化了训练过程并增强了性能,实现了高分辨率多方位比例图像合成。我们将LADD应用于稳定扩散3(8B)中,得到了SD3-Turbo,这是一个快速模型,仅使用四个无引导采样步骤即可匹配最先进的文本到图像生成器的性能。此外,我们系统地研究了其扩展行为,并展示了LADD在诸如图像编辑和修复等各种应用中的有效性。