UFOGen: Масштабируемая генерация изображений из текста за один проход с использованием диффузионных GAN

Аннотация

Модели диффузии для преобразования текста в изображения продемонстрировали впечатляющие возможности в создании согласованных изображений на основе текстовых запросов, однако вычислительная стоимость их вывода остается серьезной проблемой. Для решения этой задачи мы представляем UFOGen — новую генеративную модель, разработанную для сверхбыстрого одношагового синтеза изображений из текста. В отличие от традиционных подходов, которые сосредоточены на улучшении сэмплеров или использовании методов дистилляции для моделей диффузии, UFOGen применяет гибридную методологию, объединяя модели диффузии с целевой функцией GAN. Благодаря введенной новой целевой функции диффузии-GAN и инициализации с использованием предобученных моделей диффузии, UFOGen эффективно генерирует высококачественные изображения, обусловленные текстовыми описаниями, всего за один шаг. Помимо традиционной генерации изображений из текста, UFOGen демонстрирует универсальность в различных приложениях. Примечательно, что UFOGen является одной из первых моделей, обеспечивающих одношаговую генерацию изображений из текста и решение разнообразных задач, что представляет собой значительный прогресс в области эффективных генеративных моделей. \blfootnote{*Работа выполнена в качестве студента-исследователя Google, значок † указывает на равный вклад.}

English

Text-to-image diffusion models have demonstrated remarkable capabilities in transforming textual prompts into coherent images, yet the computational cost of their inference remains a persistent challenge. To address this issue, we present UFOGen, a novel generative model designed for ultra-fast, one-step text-to-image synthesis. In contrast to conventional approaches that focus on improving samplers or employing distillation techniques for diffusion models, UFOGen adopts a hybrid methodology, integrating diffusion models with a GAN objective. Leveraging a newly introduced diffusion-GAN objective and initialization with pre-trained diffusion models, UFOGen excels in efficiently generating high-quality images conditioned on textual descriptions in a single step. Beyond traditional text-to-image generation, UFOGen showcases versatility in applications. Notably, UFOGen stands among the pioneering models enabling one-step text-to-image generation and diverse downstream tasks, presenting a significant advancement in the landscape of efficient generative models. \blfootnote{*Work done as a student researcher of Google, dagger indicates equal contribution.

UFOGen: Масштабируемая генерация изображений из текста за один проход с использованием диффузионных GAN

UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs

Аннотация

Support