SiT: Untersuchung von Flow- und Diffusionsbasierten Generativen Modellen mit Skalierbaren Interpolant-Transformern
SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers
January 16, 2024
Autoren: Nanye Ma, Mark Goldstein, Michael S. Albergo, Nicholas M. Boffi, Eric Vanden-Eijnden, Saining Xie
cs.AI
Zusammenfassung
Wir präsentieren Scalable Interpolant Transformers (SiT), eine Familie von generativen Modellen, die auf dem Rückgrat von Diffusion Transformers (DiT) aufbauen. Das Interpolant-Framework, das es ermöglicht, zwei Verteilungen auf flexiblere Weise zu verbinden als Standard-Diffusionsmodelle, ermöglicht eine modulare Untersuchung verschiedener Designentscheidungen, die sich auf generative Modelle auswirken, die auf dynamischem Transport basieren: die Verwendung von diskretem vs. kontinuierlichem Zeitlernen, die Festlegung des Ziels, das das Modell lernen soll, die Wahl des Interpolanten, der die Verteilungen verbindet, und der Einsatz eines deterministischen oder stochastischen Samplers. Durch die sorgfältige Einführung der oben genannten Komponenten übertrifft SiT DiT einheitlich über alle Modellgrößen hinweg auf dem konditionalen ImageNet 256x256-Benchmark unter Verwendung des exakt gleichen Rückgrats, der gleichen Anzahl von Parametern und GFLOPs. Durch die Untersuchung verschiedener Diffusionskoeffizienten, die separat vom Lernen angepasst werden können, erreicht SiT einen FID-50K-Score von 2,06.
English
We present Scalable Interpolant Transformers (SiT), a family of generative
models built on the backbone of Diffusion Transformers (DiT). The interpolant
framework, which allows for connecting two distributions in a more flexible way
than standard diffusion models, makes possible a modular study of various
design choices impacting generative models built on dynamical transport: using
discrete vs. continuous time learning, deciding the objective for the model to
learn, choosing the interpolant connecting the distributions, and deploying a
deterministic or stochastic sampler. By carefully introducing the above
ingredients, SiT surpasses DiT uniformly across model sizes on the conditional
ImageNet 256x256 benchmark using the exact same backbone, number of parameters,
and GFLOPs. By exploring various diffusion coefficients, which can be tuned
separately from learning, SiT achieves an FID-50K score of 2.06.