UFOGen: You Forward Once Grootschalige Tekst-naar-Beeld Generatie via Diffusion GANs
UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs
November 14, 2023
Auteurs: Yanwu Xu, Yang Zhao, Zhisheng Xiao, Tingbo Hou
cs.AI
Samenvatting
Text-to-image diffusiemodellen hebben opmerkelijke capaciteiten getoond in het omzetten van tekstuele prompts naar samenhangende afbeeldingen, maar de rekenkosten van hun inferentie blijven een aanhoudende uitdaging. Om dit probleem aan te pakken, presenteren we UFOGen, een nieuw generatief model ontworpen voor ultra-snelle, éénstaps tekst-naar-beeld synthese. In tegenstelling tot conventionele benaderingen die zich richten op het verbeteren van samplers of het toepassen van destillatietechnieken voor diffusiemodellen, hanteert UFOGen een hybride methodologie die diffusiemodellen integreert met een GAN-doelstelling. Door gebruik te maken van een nieuw geïntroduceerde diffusie-GAN-doelstelling en initialisatie met vooraf getrainde diffusiemodellen, blinkt UFOGen uit in het efficiënt genereren van hoogwaardige afbeeldingen die zijn geconditioneerd op tekstuele beschrijvingen in één stap. Naast traditionele tekst-naar-beeld generatie, toont UFOGen veelzijdigheid in toepassingen. UFOGen behoort tot de pionierende modellen die éénstaps tekst-naar-beeld generatie en diverse downstream taken mogelijk maken, wat een significante vooruitgang betekent in het landschap van efficiënte generatieve modellen. \blfootnote{*Werk uitgevoerd als studentonderzoeker bij Google, daggertje geeft gelijke bijdrage aan.}
English
Text-to-image diffusion models have demonstrated remarkable capabilities in
transforming textual prompts into coherent images, yet the computational cost
of their inference remains a persistent challenge. To address this issue, we
present UFOGen, a novel generative model designed for ultra-fast, one-step
text-to-image synthesis. In contrast to conventional approaches that focus on
improving samplers or employing distillation techniques for diffusion models,
UFOGen adopts a hybrid methodology, integrating diffusion models with a GAN
objective. Leveraging a newly introduced diffusion-GAN objective and
initialization with pre-trained diffusion models, UFOGen excels in efficiently
generating high-quality images conditioned on textual descriptions in a single
step. Beyond traditional text-to-image generation, UFOGen showcases versatility
in applications. Notably, UFOGen stands among the pioneering models enabling
one-step text-to-image generation and diverse downstream tasks, presenting a
significant advancement in the landscape of efficient generative models.
\blfootnote{*Work done as a student researcher of Google, dagger indicates
equal contribution.