SnapGen: Die Bändigung von hochauflösenden Text-zu-Bild-Modellen für mobile Geräte mit effizienten Architekturen und Training
SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training
December 12, 2024
Autoren: Dongting Hu, Jierun Chen, Xijie Huang, Huseyin Coskun, Arpit Sahni, Aarush Gupta, Anujraaj Goyal, Dishani Lahiri, Rajesh Singh, Yerlan Idelbayev, Junli Cao, Yanyu Li, Kwang-Ting Cheng, S. -H. Gary Chan, Mingming Gong, Sergey Tulyakov, Anil Kag, Yanwu Xu, Jian Ren
cs.AI
Zusammenfassung
Bestehende Text-zu-Bild (T2I)-Diffusionsmodelle stoßen auf mehrere Einschränkungen, darunter große Modellgrößen, langsame Laufzeiten und die Generierung von minderwertigen Bildern auf mobilen Geräten. Dieser Artikel zielt darauf ab, all diese Herausforderungen anzugehen, indem ein äußerst kleines und schnelles T2I-Modell entwickelt wird, das hochauflösende und qualitativ hochwertige Bilder auf mobilen Plattformen generiert. Wir schlagen mehrere Techniken vor, um dieses Ziel zu erreichen. Zunächst untersuchen wir systematisch die Designentscheidungen der Netzwerkarchitektur, um Modellparameter und Latenz zu reduzieren, während wir eine hochwertige Generierung sicherstellen. Zweitens setzen wir zur weiteren Verbesserung der Generierungsqualität eine Wissensdestillation zwischen verschiedenen Architekturen von einem viel größeren Modell ein und verwenden einen mehrstufigen Ansatz, um das Training unseres Modells von Grund auf zu leiten. Drittens ermöglichen wir eine Generierung in wenigen Schritten, indem wir adversielle Anleitung mit Wissensdestillation integrieren. Erstmals zeigt unser Modell SnapGen die Generierung von 1024x1024 px Bildern auf einem mobilen Gerät in etwa 1,4 Sekunden. Auf ImageNet-1K erreicht unser Modell mit nur 372M Parametern einen FID von 2,06 für die Generierung von 256x256 px Bildern. In T2I-Benchmarks (z. B. GenEval und DPG-Bench) übertrifft unser Modell mit lediglich 379M Parametern große Modelle mit Milliarden von Parametern bei einer deutlich geringeren Größe (z. B. 7-mal kleiner als SDXL, 14-mal kleiner als IF-XL).
English
Existing text-to-image (T2I) diffusion models face several limitations,
including large model sizes, slow runtime, and low-quality generation on mobile
devices. This paper aims to address all of these challenges by developing an
extremely small and fast T2I model that generates high-resolution and
high-quality images on mobile platforms. We propose several techniques to
achieve this goal. First, we systematically examine the design choices of the
network architecture to reduce model parameters and latency, while ensuring
high-quality generation. Second, to further improve generation quality, we
employ cross-architecture knowledge distillation from a much larger model,
using a multi-level approach to guide the training of our model from scratch.
Third, we enable a few-step generation by integrating adversarial guidance with
knowledge distillation. For the first time, our model SnapGen, demonstrates the
generation of 1024x1024 px images on a mobile device around 1.4 seconds. On
ImageNet-1K, our model, with only 372M parameters, achieves an FID of 2.06 for
256x256 px generation. On T2I benchmarks (i.e., GenEval and DPG-Bench), our
model with merely 379M parameters, surpasses large-scale models with billions
of parameters at a significantly smaller size (e.g., 7x smaller than SDXL, 14x
smaller than IF-XL).Summary
AI-Generated Summary