UFOGen: Масштабируемая генерация изображений из текста за один проход с использованием диффузионных GAN
UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs
November 14, 2023
Авторы: Yanwu Xu, Yang Zhao, Zhisheng Xiao, Tingbo Hou
cs.AI
Аннотация
Модели диффузии для преобразования текста в изображения продемонстрировали впечатляющие возможности в создании согласованных изображений на основе текстовых запросов, однако вычислительная стоимость их вывода остается серьезной проблемой. Для решения этой задачи мы представляем UFOGen — новую генеративную модель, разработанную для сверхбыстрого одношагового синтеза изображений из текста. В отличие от традиционных подходов, которые сосредоточены на улучшении сэмплеров или использовании методов дистилляции для моделей диффузии, UFOGen применяет гибридную методологию, объединяя модели диффузии с целевой функцией GAN. Благодаря введенной новой целевой функции диффузии-GAN и инициализации с использованием предобученных моделей диффузии, UFOGen эффективно генерирует высококачественные изображения, обусловленные текстовыми описаниями, всего за один шаг. Помимо традиционной генерации изображений из текста, UFOGen демонстрирует универсальность в различных приложениях. Примечательно, что UFOGen является одной из первых моделей, обеспечивающих одношаговую генерацию изображений из текста и решение разнообразных задач, что представляет собой значительный прогресс в области эффективных генеративных моделей. \blfootnote{*Работа выполнена в качестве студента-исследователя Google, значок † указывает на равный вклад.}
English
Text-to-image diffusion models have demonstrated remarkable capabilities in
transforming textual prompts into coherent images, yet the computational cost
of their inference remains a persistent challenge. To address this issue, we
present UFOGen, a novel generative model designed for ultra-fast, one-step
text-to-image synthesis. In contrast to conventional approaches that focus on
improving samplers or employing distillation techniques for diffusion models,
UFOGen adopts a hybrid methodology, integrating diffusion models with a GAN
objective. Leveraging a newly introduced diffusion-GAN objective and
initialization with pre-trained diffusion models, UFOGen excels in efficiently
generating high-quality images conditioned on textual descriptions in a single
step. Beyond traditional text-to-image generation, UFOGen showcases versatility
in applications. Notably, UFOGen stands among the pioneering models enabling
one-step text-to-image generation and diverse downstream tasks, presenting a
significant advancement in the landscape of efficient generative models.
\blfootnote{*Work done as a student researcher of Google, dagger indicates
equal contribution.