SnapGen: Het temmen van tekst-naar-afbeelding modellen met hoge resolutie voor mobiele apparaten met efficiënte architecturen en training
SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training
December 12, 2024
Auteurs: Dongting Hu, Jierun Chen, Xijie Huang, Huseyin Coskun, Arpit Sahni, Aarush Gupta, Anujraaj Goyal, Dishani Lahiri, Rajesh Singh, Yerlan Idelbayev, Junli Cao, Yanyu Li, Kwang-Ting Cheng, S. -H. Gary Chan, Mingming Gong, Sergey Tulyakov, Anil Kag, Yanwu Xu, Jian Ren
cs.AI
Samenvatting
Bestaande tekst-naar-afbeelding (T2I) diffusiemodellen hebben verschillende beperkingen, waaronder grote modelgroottes, trage uitvoeringstijden en lage kwaliteit van gegenereerde afbeeldingen op mobiele apparaten. Dit artikel heeft tot doel al deze uitdagingen aan te pakken door een uiterst klein en snel T2I-model te ontwikkelen dat hoogwaardige en scherpe afbeeldingen genereert op mobiele platforms. We stellen verschillende technieken voor om dit doel te bereiken. Ten eerste onderzoeken we systematisch de ontwerpkeuzes van de netwerkarchitectuur om het aantal modelparameters en latentie te verminderen, terwijl we zorgen voor hoogwaardige generatie. Ten tweede, om de generatiekwaliteit verder te verbeteren, passen we cross-architectuur kennisdistillatie toe vanuit een veel groter model, met een multi-level benadering om de training van ons model vanaf nul te begeleiden. Ten derde stellen we een generatie in een paar stappen mogelijk door adversariële begeleiding te integreren met kennisdistillatie. Voor het eerst laat ons model SnapGen de generatie van 1024x1024 px afbeeldingen op een mobiel apparaat zien in ongeveer 1.4 seconden. Op ImageNet-1K behaalt ons model, met slechts 372M parameters, een FID van 2.06 voor 256x256 px generatie. Op T2I-benchmarks (bijv. GenEval en DPG-Bench), overtreft ons model met slechts 379M parameters grootschalige modellen met miljarden parameters met aanzienlijk kleinere omvang (bijv. 7x kleiner dan SDXL, 14x kleiner dan IF-XL).
English
Existing text-to-image (T2I) diffusion models face several limitations,
including large model sizes, slow runtime, and low-quality generation on mobile
devices. This paper aims to address all of these challenges by developing an
extremely small and fast T2I model that generates high-resolution and
high-quality images on mobile platforms. We propose several techniques to
achieve this goal. First, we systematically examine the design choices of the
network architecture to reduce model parameters and latency, while ensuring
high-quality generation. Second, to further improve generation quality, we
employ cross-architecture knowledge distillation from a much larger model,
using a multi-level approach to guide the training of our model from scratch.
Third, we enable a few-step generation by integrating adversarial guidance with
knowledge distillation. For the first time, our model SnapGen, demonstrates the
generation of 1024x1024 px images on a mobile device around 1.4 seconds. On
ImageNet-1K, our model, with only 372M parameters, achieves an FID of 2.06 for
256x256 px generation. On T2I benchmarks (i.e., GenEval and DPG-Bench), our
model with merely 379M parameters, surpasses large-scale models with billions
of parameters at a significantly smaller size (e.g., 7x smaller than SDXL, 14x
smaller than IF-XL).