UFOGen: Geração de Imagens em Grande Escala a partir de Texto com Propagação Única via Diffusion GANs
UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs
November 14, 2023
Autores: Yanwu Xu, Yang Zhao, Zhisheng Xiao, Tingbo Hou
cs.AI
Resumo
Modelos de difusão texto-imagem demonstraram capacidades notáveis na transformação de prompts textuais em imagens coerentes, porém o custo computacional de sua inferência permanece um desafio persistente. Para abordar essa questão, apresentamos o UFOGen, um novo modelo generativo projetado para síntese texto-imagem ultrarrápida em uma única etapa. Em contraste com abordagens convencionais que se concentram em melhorar amostradores ou empregar técnicas de destilação para modelos de difusão, o UFOGen adota uma metodologia híbrida, integrando modelos de difusão com um objetivo GAN. Aproveitando um objetivo difusão-GAN recém-introduzido e inicialização com modelos de difusão pré-treinados, o UFOGen se destaca na geração eficiente de imagens de alta qualidade condicionadas a descrições textuais em uma única etapa. Além da geração tradicional texto-imagem, o UFOGen demonstra versatilidade em aplicações. Notavelmente, o UFOGen está entre os modelos pioneiros que permitem a geração texto-imagem em uma única etapa e diversas tarefas subsequentes, representando um avanço significativo no cenário de modelos generativos eficientes.
\blfootnote{*Trabalho realizado como pesquisador estudantil da Google, o símbolo de adaga indica contribuição igual.}
English
Text-to-image diffusion models have demonstrated remarkable capabilities in
transforming textual prompts into coherent images, yet the computational cost
of their inference remains a persistent challenge. To address this issue, we
present UFOGen, a novel generative model designed for ultra-fast, one-step
text-to-image synthesis. In contrast to conventional approaches that focus on
improving samplers or employing distillation techniques for diffusion models,
UFOGen adopts a hybrid methodology, integrating diffusion models with a GAN
objective. Leveraging a newly introduced diffusion-GAN objective and
initialization with pre-trained diffusion models, UFOGen excels in efficiently
generating high-quality images conditioned on textual descriptions in a single
step. Beyond traditional text-to-image generation, UFOGen showcases versatility
in applications. Notably, UFOGen stands among the pioneering models enabling
one-step text-to-image generation and diverse downstream tasks, presenting a
significant advancement in the landscape of efficient generative models.
\blfootnote{*Work done as a student researcher of Google, dagger indicates
equal contribution.