ChatPaper.aiChatPaper

UFOGen: You Forward Once – Großskalige Text-zu-Bild-Generierung mittels Diffusion GANs

UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs

November 14, 2023
Autoren: Yanwu Xu, Yang Zhao, Zhisheng Xiao, Tingbo Hou
cs.AI

Zusammenfassung

Text-to-Image-Diffusionsmodelle haben bemerkenswerte Fähigkeiten bei der Umwandlung von textuellen Eingabeaufforderungen in kohärente Bilder gezeigt, doch die Rechenkosten ihrer Inferenz bleiben eine anhaltende Herausforderung. Um dieses Problem zu lösen, stellen wir UFOGen vor, ein neuartiges generatives Modell, das für ultraschnelle, einstufige Text-to-Image-Synthese entwickelt wurde. Im Gegensatz zu konventionellen Ansätzen, die sich auf die Verbesserung von Samplern oder den Einsatz von Destillationstechniken für Diffusionsmodelle konzentrieren, verfolgt UFOGen eine hybride Methodik, die Diffusionsmodelle mit einem GAN-Ziel integriert. Durch die Nutzung eines neu eingeführten Diffusion-GAN-Ziels und der Initialisierung mit vortrainierten Diffusionsmodellen zeichnet sich UFOGen durch die effiziente Erzeugung hochwertiger Bilder aus, die in einem einzigen Schritt auf textuellen Beschreibungen basieren. Über die traditionelle Text-to-Image-Generierung hinaus zeigt UFOGen vielseitige Anwendungsmöglichkeiten. Insbesondere gehört UFOGen zu den wegweisenden Modellen, die eine einstufige Text-to-Image-Generierung und diverse nachgelagerte Aufgaben ermöglichen, was einen bedeutenden Fortschritt im Bereich effizienter generativer Modelle darstellt. \blfootnote{*Arbeit wurde als studentischer Forscher bei Google durchgeführt, das Dagger-Symbol kennzeichnet gleichen Beitrag.}
English
Text-to-image diffusion models have demonstrated remarkable capabilities in transforming textual prompts into coherent images, yet the computational cost of their inference remains a persistent challenge. To address this issue, we present UFOGen, a novel generative model designed for ultra-fast, one-step text-to-image synthesis. In contrast to conventional approaches that focus on improving samplers or employing distillation techniques for diffusion models, UFOGen adopts a hybrid methodology, integrating diffusion models with a GAN objective. Leveraging a newly introduced diffusion-GAN objective and initialization with pre-trained diffusion models, UFOGen excels in efficiently generating high-quality images conditioned on textual descriptions in a single step. Beyond traditional text-to-image generation, UFOGen showcases versatility in applications. Notably, UFOGen stands among the pioneering models enabling one-step text-to-image generation and diverse downstream tasks, presenting a significant advancement in the landscape of efficient generative models. \blfootnote{*Work done as a student researcher of Google, dagger indicates equal contribution.
PDF486December 15, 2024