UFOGen: Generación de Imágenes a Gran Escala a partir de Texto con un Solo Paso hacia Adelante mediante Diffusion GANs

Resumen

Los modelos de difusión de texto a imagen han demostrado capacidades notables para transformar indicaciones textuales en imágenes coherentes, aunque el costo computacional de su inferencia sigue siendo un desafío persistente. Para abordar este problema, presentamos UFOGen, un modelo generativo novedoso diseñado para la síntesis ultra rápida de texto a imagen en un solo paso. A diferencia de los enfoques convencionales que se centran en mejorar los muestreadores o emplear técnicas de destilación para modelos de difusión, UFOGen adopta una metodología híbrida, integrando modelos de difusión con un objetivo GAN. Al aprovechar un objetivo difusión-GAN recientemente introducido y una inicialización con modelos de difusión preentrenados, UFOGen sobresale en la generación eficiente de imágenes de alta calidad condicionadas por descripciones textuales en un solo paso. Más allá de la generación tradicional de texto a imagen, UFOGen muestra versatilidad en aplicaciones. Cabe destacar que UFOGen se encuentra entre los modelos pioneros que permiten la generación de texto a imagen en un solo paso y diversas tareas posteriores, representando un avance significativo en el panorama de los modelos generativos eficientes. \blfootnote{*Trabajo realizado como investigador estudiantil de Google, el símbolo de daga indica contribución igual.}

English

Text-to-image diffusion models have demonstrated remarkable capabilities in transforming textual prompts into coherent images, yet the computational cost of their inference remains a persistent challenge. To address this issue, we present UFOGen, a novel generative model designed for ultra-fast, one-step text-to-image synthesis. In contrast to conventional approaches that focus on improving samplers or employing distillation techniques for diffusion models, UFOGen adopts a hybrid methodology, integrating diffusion models with a GAN objective. Leveraging a newly introduced diffusion-GAN objective and initialization with pre-trained diffusion models, UFOGen excels in efficiently generating high-quality images conditioned on textual descriptions in a single step. Beyond traditional text-to-image generation, UFOGen showcases versatility in applications. Notably, UFOGen stands among the pioneering models enabling one-step text-to-image generation and diverse downstream tasks, presenting a significant advancement in the landscape of efficient generative models. \blfootnote{*Work done as a student researcher of Google, dagger indicates equal contribution.

UFOGen: Generación de Imágenes a Gran Escala a partir de Texto con un Solo Paso hacia Adelante mediante Diffusion GANs

UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs

Resumen

Support