ChatPaper.aiChatPaper

SiT: Explorando Modelos Gerativos Baseados em Fluxo e Difusão com Transformadores de Interpolante Escaláveis

SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers

January 16, 2024
Autores: Nanye Ma, Mark Goldstein, Michael S. Albergo, Nicholas M. Boffi, Eric Vanden-Eijnden, Saining Xie
cs.AI

Resumo

Apresentamos os Transformadores Interpolantes Escaláveis (SiT), uma família de modelos generativos construídos sobre a estrutura dos Transformadores de Difusão (DiT). O framework interpolante, que permite conectar duas distribuições de maneira mais flexível do que os modelos de difusão padrão, possibilita um estudo modular de várias escolhas de design que impactam modelos generativos baseados em transporte dinâmico: utilizar aprendizado em tempo discreto versus contínuo, decidir o objetivo que o modelo deve aprender, escolher o interpolante que conecta as distribuições e implementar um amostrador determinístico ou estocástico. Ao introduzir cuidadosamente os elementos mencionados, o SiT supera o DiT de forma uniforme em todos os tamanhos de modelos no benchmark condicional ImageNet 256x256, utilizando exatamente a mesma estrutura, número de parâmetros e GFLOPs. Ao explorar diversos coeficientes de difusão, que podem ser ajustados separadamente do aprendizado, o SiT alcança um score FID-50K de 2,06.
English
We present Scalable Interpolant Transformers (SiT), a family of generative models built on the backbone of Diffusion Transformers (DiT). The interpolant framework, which allows for connecting two distributions in a more flexible way than standard diffusion models, makes possible a modular study of various design choices impacting generative models built on dynamical transport: using discrete vs. continuous time learning, deciding the objective for the model to learn, choosing the interpolant connecting the distributions, and deploying a deterministic or stochastic sampler. By carefully introducing the above ingredients, SiT surpasses DiT uniformly across model sizes on the conditional ImageNet 256x256 benchmark using the exact same backbone, number of parameters, and GFLOPs. By exploring various diffusion coefficients, which can be tuned separately from learning, SiT achieves an FID-50K score of 2.06.
PDF141December 15, 2024