UFOGen: You Forward Once – Großskalige Text-zu-Bild-Generierung mittels Diffusion GANs
UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs
November 14, 2023
Autoren: Yanwu Xu, Yang Zhao, Zhisheng Xiao, Tingbo Hou
cs.AI
Zusammenfassung
Text-to-Image-Diffusionsmodelle haben bemerkenswerte Fähigkeiten bei der Umwandlung von textuellen Eingabeaufforderungen in kohärente Bilder gezeigt, doch die Rechenkosten ihrer Inferenz bleiben eine anhaltende Herausforderung. Um dieses Problem zu lösen, stellen wir UFOGen vor, ein neuartiges generatives Modell, das für ultraschnelle, einstufige Text-to-Image-Synthese entwickelt wurde. Im Gegensatz zu konventionellen Ansätzen, die sich auf die Verbesserung von Samplern oder den Einsatz von Destillationstechniken für Diffusionsmodelle konzentrieren, verfolgt UFOGen eine hybride Methodik, die Diffusionsmodelle mit einem GAN-Ziel integriert. Durch die Nutzung eines neu eingeführten Diffusion-GAN-Ziels und der Initialisierung mit vortrainierten Diffusionsmodellen zeichnet sich UFOGen durch die effiziente Erzeugung hochwertiger Bilder aus, die in einem einzigen Schritt auf textuellen Beschreibungen basieren. Über die traditionelle Text-to-Image-Generierung hinaus zeigt UFOGen vielseitige Anwendungsmöglichkeiten. Insbesondere gehört UFOGen zu den wegweisenden Modellen, die eine einstufige Text-to-Image-Generierung und diverse nachgelagerte Aufgaben ermöglichen, was einen bedeutenden Fortschritt im Bereich effizienter generativer Modelle darstellt.
\blfootnote{*Arbeit wurde als studentischer Forscher bei Google durchgeführt, das Dagger-Symbol kennzeichnet gleichen Beitrag.}
English
Text-to-image diffusion models have demonstrated remarkable capabilities in
transforming textual prompts into coherent images, yet the computational cost
of their inference remains a persistent challenge. To address this issue, we
present UFOGen, a novel generative model designed for ultra-fast, one-step
text-to-image synthesis. In contrast to conventional approaches that focus on
improving samplers or employing distillation techniques for diffusion models,
UFOGen adopts a hybrid methodology, integrating diffusion models with a GAN
objective. Leveraging a newly introduced diffusion-GAN objective and
initialization with pre-trained diffusion models, UFOGen excels in efficiently
generating high-quality images conditioned on textual descriptions in a single
step. Beyond traditional text-to-image generation, UFOGen showcases versatility
in applications. Notably, UFOGen stands among the pioneering models enabling
one-step text-to-image generation and diverse downstream tasks, presenting a
significant advancement in the landscape of efficient generative models.
\blfootnote{*Work done as a student researcher of Google, dagger indicates
equal contribution.