ChatPaper.aiChatPaper

SiT: Untersuchung von Flow- und Diffusionsbasierten Generativen Modellen mit Skalierbaren Interpolant-Transformern

SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers

January 16, 2024
Autoren: Nanye Ma, Mark Goldstein, Michael S. Albergo, Nicholas M. Boffi, Eric Vanden-Eijnden, Saining Xie
cs.AI

Zusammenfassung

Wir präsentieren Scalable Interpolant Transformers (SiT), eine Familie von generativen Modellen, die auf dem Rückgrat von Diffusion Transformers (DiT) aufbauen. Das Interpolant-Framework, das es ermöglicht, zwei Verteilungen auf flexiblere Weise zu verbinden als Standard-Diffusionsmodelle, ermöglicht eine modulare Untersuchung verschiedener Designentscheidungen, die sich auf generative Modelle auswirken, die auf dynamischem Transport basieren: die Verwendung von diskretem vs. kontinuierlichem Zeitlernen, die Festlegung des Ziels, das das Modell lernen soll, die Wahl des Interpolanten, der die Verteilungen verbindet, und der Einsatz eines deterministischen oder stochastischen Samplers. Durch die sorgfältige Einführung der oben genannten Komponenten übertrifft SiT DiT einheitlich über alle Modellgrößen hinweg auf dem konditionalen ImageNet 256x256-Benchmark unter Verwendung des exakt gleichen Rückgrats, der gleichen Anzahl von Parametern und GFLOPs. Durch die Untersuchung verschiedener Diffusionskoeffizienten, die separat vom Lernen angepasst werden können, erreicht SiT einen FID-50K-Score von 2,06.
English
We present Scalable Interpolant Transformers (SiT), a family of generative models built on the backbone of Diffusion Transformers (DiT). The interpolant framework, which allows for connecting two distributions in a more flexible way than standard diffusion models, makes possible a modular study of various design choices impacting generative models built on dynamical transport: using discrete vs. continuous time learning, deciding the objective for the model to learn, choosing the interpolant connecting the distributions, and deploying a deterministic or stochastic sampler. By carefully introducing the above ingredients, SiT surpasses DiT uniformly across model sizes on the conditional ImageNet 256x256 benchmark using the exact same backbone, number of parameters, and GFLOPs. By exploring various diffusion coefficients, which can be tuned separately from learning, SiT achieves an FID-50K score of 2.06.
PDF141December 15, 2024