統一連続生成モデル
Unified Continuous Generative Models
May 12, 2025
著者: Peng Sun, Yi Jiang, Tao Lin
cs.AI
要旨
連続生成モデルにおける最近の進展、特に拡散モデルやフローマッチングといった多段階アプローチ(通常8-1000サンプリングステップを要する)や、一貫性モデルなどの少段階手法(通常1-8ステップ)は、印象的な生成性能を示しています。しかし、既存の研究ではこれらのアプローチを異なるパラダイムとして扱い、別々の学習とサンプリング手法を採用する傾向があります。本研究では、これらのモデルを統一的に学習、サンプリング、分析するためのフレームワークを提案します。私たちの実装であるUnified Continuous Generative Models Trainer and Sampler(UCGM-{T,S})は、最先端(SOTA)の性能を達成しています。例えば、ImageNet 256x256において675Mパラメータの拡散トランスフォーマーを使用した場合、UCGM-Tは多段階モデルを20ステップで1.30 FID、少段階モデルをわずか2ステップで1.42 FIDに到達させます。さらに、UCGM-Sを事前学習済みモデル(従来250ステップで1.26 FID)に適用すると、わずか40ステップで1.06 FIDに性能が向上します。コードは以下で公開されています: https://github.com/LINs-lab/UCGM。
English
Recent advances in continuous generative models, including multi-step
approaches like diffusion and flow-matching (typically requiring 8-1000
sampling steps) and few-step methods such as consistency models (typically 1-8
steps), have demonstrated impressive generative performance. However, existing
work often treats these approaches as distinct paradigms, resulting in separate
training and sampling methodologies. We introduce a unified framework for
training, sampling, and analyzing these models. Our implementation, the Unified
Continuous Generative Models Trainer and Sampler (UCGM-{T,S}), achieves
state-of-the-art (SOTA) performance. For example, on ImageNet 256x256 using a
675M diffusion transformer, UCGM-T trains a multi-step model achieving 1.30 FID
in 20 steps and a few-step model reaching 1.42 FID in just 2 steps.
Additionally, applying UCGM-S to a pre-trained model (previously 1.26 FID at
250 steps) improves performance to 1.06 FID in only 40 steps. Code is available
at: https://github.com/LINs-lab/UCGM.Summary
AI-Generated Summary