SiT: 확장 가능한 인터폴란트 트랜스포머를 활용한 플로우 및 확산 기반 생성 모델 탐구
SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers
January 16, 2024
저자: Nanye Ma, Mark Goldstein, Michael S. Albergo, Nicholas M. Boffi, Eric Vanden-Eijnden, Saining Xie
cs.AI
초록
우리는 Diffusion Transformers(DiT)를 기반으로 구축된 생성 모델 패밀리인 Scalable Interpolant Transformers(SiT)를 소개한다. 보간 프레임워크는 표준 확산 모델보다 더 유연한 방식으로 두 분포를 연결할 수 있게 하여, 동적 전송을 기반으로 한 생성 모델에 영향을 미치는 다양한 설계 선택의 모듈식 연구를 가능하게 한다. 이는 이산 시간 학습 대 연속 시간 학습의 사용, 모델이 학습할 목적 함수의 결정, 분포를 연결하는 보간 함수의 선택, 그리고 결정론적 또는 확률적 샘플러의 배치 등을 포함한다. 위의 요소들을 신중하게 도입함으로써, SiT는 동일한 백본, 매개변수 수 및 GFLOPs를 사용하여 조건부 ImageNet 256x256 벤치마크에서 모델 크기 전반에 걸쳐 DiT를 균일하게 능가한다. 학습과 별도로 조정할 수 있는 다양한 확산 계수를 탐색함으로써, SiT는 FID-50K 점수 2.06을 달성한다.
English
We present Scalable Interpolant Transformers (SiT), a family of generative
models built on the backbone of Diffusion Transformers (DiT). The interpolant
framework, which allows for connecting two distributions in a more flexible way
than standard diffusion models, makes possible a modular study of various
design choices impacting generative models built on dynamical transport: using
discrete vs. continuous time learning, deciding the objective for the model to
learn, choosing the interpolant connecting the distributions, and deploying a
deterministic or stochastic sampler. By carefully introducing the above
ingredients, SiT surpasses DiT uniformly across model sizes on the conditional
ImageNet 256x256 benchmark using the exact same backbone, number of parameters,
and GFLOPs. By exploring various diffusion coefficients, which can be tuned
separately from learning, SiT achieves an FID-50K score of 2.06.