UFOGen : Génération à grande échelle de texte à image en une seule passe via des Diffusion GANs
UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs
November 14, 2023
Auteurs: Yanwu Xu, Yang Zhao, Zhisheng Xiao, Tingbo Hou
cs.AI
Résumé
Les modèles de diffusion texte-image ont démontré des capacités remarquables dans la transformation de descriptions textuelles en images cohérentes, mais le coût computationnel de leur inférence reste un défi persistant. Pour résoudre ce problème, nous présentons UFOGen, un nouveau modèle génératif conçu pour la synthèse ultra-rapide d'images en une seule étape à partir de texte. Contrairement aux approches conventionnelles qui se concentrent sur l'amélioration des échantillonneurs ou l'utilisation de techniques de distillation pour les modèles de diffusion, UFOGen adopte une méthodologie hybride, intégrant les modèles de diffusion avec un objectif GAN. En tirant parti d'un nouvel objectif diffusion-GAN et d'une initialisation avec des modèles de diffusion pré-entraînés, UFOGen excelle dans la génération efficace d'images de haute qualité conditionnées par des descriptions textuelles en une seule étape. Au-delà de la génération traditionnelle texte-image, UFOGen démontre une polyvalence dans diverses applications. Notamment, UFOGen figure parmi les premiers modèles permettant la génération d'images en une étape à partir de texte et diverses tâches en aval, représentant une avancée significative dans le paysage des modèles génératifs efficaces.
\blfootnote{*Travail réalisé en tant qu'étudiant chercheur chez Google, le symbole † indique une contribution égale.}
English
Text-to-image diffusion models have demonstrated remarkable capabilities in
transforming textual prompts into coherent images, yet the computational cost
of their inference remains a persistent challenge. To address this issue, we
present UFOGen, a novel generative model designed for ultra-fast, one-step
text-to-image synthesis. In contrast to conventional approaches that focus on
improving samplers or employing distillation techniques for diffusion models,
UFOGen adopts a hybrid methodology, integrating diffusion models with a GAN
objective. Leveraging a newly introduced diffusion-GAN objective and
initialization with pre-trained diffusion models, UFOGen excels in efficiently
generating high-quality images conditioned on textual descriptions in a single
step. Beyond traditional text-to-image generation, UFOGen showcases versatility
in applications. Notably, UFOGen stands among the pioneering models enabling
one-step text-to-image generation and diverse downstream tasks, presenting a
significant advancement in the landscape of efficient generative models.
\blfootnote{*Work done as a student researcher of Google, dagger indicates
equal contribution.