Быстрый синтез изображений высокого разрешения с латентной адверсарной диффузионной дистилляциейFast High-Resolution Image Synthesis with Latent Adversarial Diffusion
Distillation
Модели диффузии являются основным двигателем прогресса в синтезе изображений и видео, но страдают от медленной скорости вывода. Методы дистилляции, такие как недавно представленная дистилляция адверсариальной диффузии (ADD), нацелены на переход модели от многократного к одношаговому выводу, хотя за счет дорогостоящей и сложной оптимизации из-за зависимости от фиксированного предварительно обученного дискриминатора DINOv2. Мы представляем Латентную Адверсариальную Дистилляцию Диффузии (LADD), новый подход к дистилляции, преодолевающий ограничения ADD. В отличие от пиксельной ADD, LADD использует генеративные признаки из предварительно обученных моделей латентной диффузии. Этот подход упрощает обучение и улучшает производительность, обеспечивая синтез изображений высокого разрешения с различными соотношениями сторон. Мы применяем LADD к Stable Diffusion 3 (8B) для получения SD3-Turbo, быстрой модели, которая соответствует производительности передовых генераторов текста в изображения, используя всего лишь четыре неуправляемых шага выборки. Более того, мы систематически исследуем ее поведение при масштабировании и демонстрируем эффективность LADD в различных приложениях, таких как редактирование изображений и заполнение пробелов.