UFOGen: Generazione su larga scala di immagini da testo in un solo passaggio tramite Diffusion GANs

Abstract

I modelli di diffusione text-to-image hanno dimostrato capacità straordinarie nel trasformare prompt testuali in immagini coerenti, tuttavia il costo computazionale della loro inferenza rimane una sfida persistente. Per affrontare questo problema, presentiamo UFOGen, un nuovo modello generativo progettato per la sintesi ultra-veloce e in un solo passaggio da testo a immagine. A differenza degli approcci convenzionali che si concentrano sul miglioramento dei campionatori o sull'impiego di tecniche di distillazione per i modelli di diffusione, UFOGen adotta una metodologia ibrida, integrando modelli di diffusione con un obiettivo GAN. Sfruttando un nuovo obiettivo diffusion-GAN introdotto e un'inizializzazione con modelli di diffusione pre-addestrati, UFOGen eccelle nella generazione efficiente di immagini di alta qualità condizionate da descrizioni testuali in un unico passaggio. Oltre alla tradizionale generazione da testo a immagine, UFOGen dimostra versatilità nelle applicazioni. In particolare, UFOGen si colloca tra i modelli pionieristici che abilitano la generazione da testo a immagine in un solo passaggio e diverse attività downstream, rappresentando un significativo avanzamento nel panorama dei modelli generativi efficienti. \blfootnote{*Lavoro svolto come ricercatore studentesco di Google, il simbolo † indica un contributo paritario.}

English

Text-to-image diffusion models have demonstrated remarkable capabilities in transforming textual prompts into coherent images, yet the computational cost of their inference remains a persistent challenge. To address this issue, we present UFOGen, a novel generative model designed for ultra-fast, one-step text-to-image synthesis. In contrast to conventional approaches that focus on improving samplers or employing distillation techniques for diffusion models, UFOGen adopts a hybrid methodology, integrating diffusion models with a GAN objective. Leveraging a newly introduced diffusion-GAN objective and initialization with pre-trained diffusion models, UFOGen excels in efficiently generating high-quality images conditioned on textual descriptions in a single step. Beyond traditional text-to-image generation, UFOGen showcases versatility in applications. Notably, UFOGen stands among the pioneering models enabling one-step text-to-image generation and diverse downstream tasks, presenting a significant advancement in the landscape of efficient generative models. \blfootnote{*Work done as a student researcher of Google, dagger indicates equal contribution.

UFOGen: Generazione su larga scala di immagini da testo in un solo passaggio tramite Diffusion GANs

UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs

Abstract

Support