UFOGen: Generazione su larga scala di immagini da testo in un solo passaggio tramite Diffusion GANs
UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs
November 14, 2023
Autori: Yanwu Xu, Yang Zhao, Zhisheng Xiao, Tingbo Hou
cs.AI
Abstract
I modelli di diffusione text-to-image hanno dimostrato capacità straordinarie nel trasformare prompt testuali in immagini coerenti, tuttavia il costo computazionale della loro inferenza rimane una sfida persistente. Per affrontare questo problema, presentiamo UFOGen, un nuovo modello generativo progettato per la sintesi ultra-veloce e in un solo passaggio da testo a immagine. A differenza degli approcci convenzionali che si concentrano sul miglioramento dei campionatori o sull'impiego di tecniche di distillazione per i modelli di diffusione, UFOGen adotta una metodologia ibrida, integrando modelli di diffusione con un obiettivo GAN. Sfruttando un nuovo obiettivo diffusion-GAN introdotto e un'inizializzazione con modelli di diffusione pre-addestrati, UFOGen eccelle nella generazione efficiente di immagini di alta qualità condizionate da descrizioni testuali in un unico passaggio. Oltre alla tradizionale generazione da testo a immagine, UFOGen dimostra versatilità nelle applicazioni. In particolare, UFOGen si colloca tra i modelli pionieristici che abilitano la generazione da testo a immagine in un solo passaggio e diverse attività downstream, rappresentando un significativo avanzamento nel panorama dei modelli generativi efficienti. \blfootnote{*Lavoro svolto come ricercatore studentesco di Google, il simbolo † indica un contributo paritario.}
English
Text-to-image diffusion models have demonstrated remarkable capabilities in
transforming textual prompts into coherent images, yet the computational cost
of their inference remains a persistent challenge. To address this issue, we
present UFOGen, a novel generative model designed for ultra-fast, one-step
text-to-image synthesis. In contrast to conventional approaches that focus on
improving samplers or employing distillation techniques for diffusion models,
UFOGen adopts a hybrid methodology, integrating diffusion models with a GAN
objective. Leveraging a newly introduced diffusion-GAN objective and
initialization with pre-trained diffusion models, UFOGen excels in efficiently
generating high-quality images conditioned on textual descriptions in a single
step. Beyond traditional text-to-image generation, UFOGen showcases versatility
in applications. Notably, UFOGen stands among the pioneering models enabling
one-step text-to-image generation and diverse downstream tasks, presenting a
significant advancement in the landscape of efficient generative models.
\blfootnote{*Work done as a student researcher of Google, dagger indicates
equal contribution.