ChatPaper.aiChatPaper

SiT: Esplorazione di Modelli Generativi basati su Flussi e Diffusione con Interpolanti Scalabili e Trasformatori

SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers

January 16, 2024
Autori: Nanye Ma, Mark Goldstein, Michael S. Albergo, Nicholas M. Boffi, Eric Vanden-Eijnden, Saining Xie
cs.AI

Abstract

Presentiamo Scalable Interpolant Transformers (SiT), una famiglia di modelli generativi basati sull'architettura dei Diffusion Transformers (DiT). Il framework degli interpolanti, che consente di connettere due distribuzioni in modo più flessibile rispetto ai modelli di diffusione standard, permette uno studio modulare di varie scelte progettuali che influenzano i modelli generativi costruiti su trasporto dinamico: l'uso di apprendimento in tempo discreto rispetto a continuo, la definizione dell'obiettivo per il modello da apprendere, la scelta dell'interpolante che connette le distribuzioni e l'implementazione di un campionatore deterministico o stocastico. Introducendo attentamente gli ingredienti sopra citati, SiT supera DiT in modo uniforme su tutte le dimensioni del modello nel benchmark condizionale ImageNet 256x256, utilizzando esattamente la stessa architettura, numero di parametri e GFLOPs. Esplorando vari coefficienti di diffusione, che possono essere regolati separatamente dall'apprendimento, SiT raggiunge un punteggio FID-50K di 2.06.
English
We present Scalable Interpolant Transformers (SiT), a family of generative models built on the backbone of Diffusion Transformers (DiT). The interpolant framework, which allows for connecting two distributions in a more flexible way than standard diffusion models, makes possible a modular study of various design choices impacting generative models built on dynamical transport: using discrete vs. continuous time learning, deciding the objective for the model to learn, choosing the interpolant connecting the distributions, and deploying a deterministic or stochastic sampler. By carefully introducing the above ingredients, SiT surpasses DiT uniformly across model sizes on the conditional ImageNet 256x256 benchmark using the exact same backbone, number of parameters, and GFLOPs. By exploring various diffusion coefficients, which can be tuned separately from learning, SiT achieves an FID-50K score of 2.06.
PDF141December 15, 2024