ChatPaper.aiChatPaper

UFOGen: Geração de Imagens em Grande Escala a partir de Texto com Propagação Única via Diffusion GANs

UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs

November 14, 2023
Autores: Yanwu Xu, Yang Zhao, Zhisheng Xiao, Tingbo Hou
cs.AI

Resumo

Modelos de difusão texto-imagem demonstraram capacidades notáveis na transformação de prompts textuais em imagens coerentes, porém o custo computacional de sua inferência permanece um desafio persistente. Para abordar essa questão, apresentamos o UFOGen, um novo modelo generativo projetado para síntese texto-imagem ultrarrápida em uma única etapa. Em contraste com abordagens convencionais que se concentram em melhorar amostradores ou empregar técnicas de destilação para modelos de difusão, o UFOGen adota uma metodologia híbrida, integrando modelos de difusão com um objetivo GAN. Aproveitando um objetivo difusão-GAN recém-introduzido e inicialização com modelos de difusão pré-treinados, o UFOGen se destaca na geração eficiente de imagens de alta qualidade condicionadas a descrições textuais em uma única etapa. Além da geração tradicional texto-imagem, o UFOGen demonstra versatilidade em aplicações. Notavelmente, o UFOGen está entre os modelos pioneiros que permitem a geração texto-imagem em uma única etapa e diversas tarefas subsequentes, representando um avanço significativo no cenário de modelos generativos eficientes. \blfootnote{*Trabalho realizado como pesquisador estudantil da Google, o símbolo de adaga indica contribuição igual.}
English
Text-to-image diffusion models have demonstrated remarkable capabilities in transforming textual prompts into coherent images, yet the computational cost of their inference remains a persistent challenge. To address this issue, we present UFOGen, a novel generative model designed for ultra-fast, one-step text-to-image synthesis. In contrast to conventional approaches that focus on improving samplers or employing distillation techniques for diffusion models, UFOGen adopts a hybrid methodology, integrating diffusion models with a GAN objective. Leveraging a newly introduced diffusion-GAN objective and initialization with pre-trained diffusion models, UFOGen excels in efficiently generating high-quality images conditioned on textual descriptions in a single step. Beyond traditional text-to-image generation, UFOGen showcases versatility in applications. Notably, UFOGen stands among the pioneering models enabling one-step text-to-image generation and diverse downstream tasks, presenting a significant advancement in the landscape of efficient generative models. \blfootnote{*Work done as a student researcher of Google, dagger indicates equal contribution.
PDF486December 15, 2024