UFOGen: Generación de Imágenes a Gran Escala a partir de Texto con un Solo Paso hacia Adelante mediante Diffusion GANs
UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs
November 14, 2023
Autores: Yanwu Xu, Yang Zhao, Zhisheng Xiao, Tingbo Hou
cs.AI
Resumen
Los modelos de difusión de texto a imagen han demostrado capacidades notables para transformar indicaciones textuales en imágenes coherentes, aunque el costo computacional de su inferencia sigue siendo un desafío persistente. Para abordar este problema, presentamos UFOGen, un modelo generativo novedoso diseñado para la síntesis ultra rápida de texto a imagen en un solo paso. A diferencia de los enfoques convencionales que se centran en mejorar los muestreadores o emplear técnicas de destilación para modelos de difusión, UFOGen adopta una metodología híbrida, integrando modelos de difusión con un objetivo GAN. Al aprovechar un objetivo difusión-GAN recientemente introducido y una inicialización con modelos de difusión preentrenados, UFOGen sobresale en la generación eficiente de imágenes de alta calidad condicionadas por descripciones textuales en un solo paso. Más allá de la generación tradicional de texto a imagen, UFOGen muestra versatilidad en aplicaciones. Cabe destacar que UFOGen se encuentra entre los modelos pioneros que permiten la generación de texto a imagen en un solo paso y diversas tareas posteriores, representando un avance significativo en el panorama de los modelos generativos eficientes. \blfootnote{*Trabajo realizado como investigador estudiantil de Google, el símbolo de daga indica contribución igual.}
English
Text-to-image diffusion models have demonstrated remarkable capabilities in
transforming textual prompts into coherent images, yet the computational cost
of their inference remains a persistent challenge. To address this issue, we
present UFOGen, a novel generative model designed for ultra-fast, one-step
text-to-image synthesis. In contrast to conventional approaches that focus on
improving samplers or employing distillation techniques for diffusion models,
UFOGen adopts a hybrid methodology, integrating diffusion models with a GAN
objective. Leveraging a newly introduced diffusion-GAN objective and
initialization with pre-trained diffusion models, UFOGen excels in efficiently
generating high-quality images conditioned on textual descriptions in a single
step. Beyond traditional text-to-image generation, UFOGen showcases versatility
in applications. Notably, UFOGen stands among the pioneering models enabling
one-step text-to-image generation and diverse downstream tasks, presenting a
significant advancement in the landscape of efficient generative models.
\blfootnote{*Work done as a student researcher of Google, dagger indicates
equal contribution.