UFOGen: You Forward Once Grootschalige Tekst-naar-Beeld Generatie via Diffusion GANs

Samenvatting

Text-to-image diffusiemodellen hebben opmerkelijke capaciteiten getoond in het omzetten van tekstuele prompts naar samenhangende afbeeldingen, maar de rekenkosten van hun inferentie blijven een aanhoudende uitdaging. Om dit probleem aan te pakken, presenteren we UFOGen, een nieuw generatief model ontworpen voor ultra-snelle, éénstaps tekst-naar-beeld synthese. In tegenstelling tot conventionele benaderingen die zich richten op het verbeteren van samplers of het toepassen van destillatietechnieken voor diffusiemodellen, hanteert UFOGen een hybride methodologie die diffusiemodellen integreert met een GAN-doelstelling. Door gebruik te maken van een nieuw geïntroduceerde diffusie-GAN-doelstelling en initialisatie met vooraf getrainde diffusiemodellen, blinkt UFOGen uit in het efficiënt genereren van hoogwaardige afbeeldingen die zijn geconditioneerd op tekstuele beschrijvingen in één stap. Naast traditionele tekst-naar-beeld generatie, toont UFOGen veelzijdigheid in toepassingen. UFOGen behoort tot de pionierende modellen die éénstaps tekst-naar-beeld generatie en diverse downstream taken mogelijk maken, wat een significante vooruitgang betekent in het landschap van efficiënte generatieve modellen. \blfootnote{*Werk uitgevoerd als studentonderzoeker bij Google, daggertje geeft gelijke bijdrage aan.}

English

Text-to-image diffusion models have demonstrated remarkable capabilities in transforming textual prompts into coherent images, yet the computational cost of their inference remains a persistent challenge. To address this issue, we present UFOGen, a novel generative model designed for ultra-fast, one-step text-to-image synthesis. In contrast to conventional approaches that focus on improving samplers or employing distillation techniques for diffusion models, UFOGen adopts a hybrid methodology, integrating diffusion models with a GAN objective. Leveraging a newly introduced diffusion-GAN objective and initialization with pre-trained diffusion models, UFOGen excels in efficiently generating high-quality images conditioned on textual descriptions in a single step. Beyond traditional text-to-image generation, UFOGen showcases versatility in applications. Notably, UFOGen stands among the pioneering models enabling one-step text-to-image generation and diverse downstream tasks, presenting a significant advancement in the landscape of efficient generative models. \blfootnote{*Work done as a student researcher of Google, dagger indicates equal contribution.

UFOGen: You Forward Once Grootschalige Tekst-naar-Beeld Generatie via Diffusion GANs

UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs

Samenvatting

Support