Einheitliche kontinuierliche generative Modelle
Unified Continuous Generative Models
May 12, 2025
Autoren: Peng Sun, Yi Jiang, Tao Lin
cs.AI
Zusammenfassung
Jüngste Fortschritte bei kontinuierlichen generativen Modellen, einschließlich mehrstufiger Ansätze wie Diffusion und Flow-Matching (typischerweise 8-1000 Abtastschritte erfordernd) sowie wenige-stufiger Methoden wie Konsistenzmodelle (typischerweise 1-8 Schritte), haben beeindruckende generative Leistungen gezeigt. Bisherige Arbeiten behandeln diese Ansätze jedoch oft als getrennte Paradigmen, was zu separaten Trainings- und Abtastmethoden führt. Wir stellen ein einheitliches Framework für das Training, die Abtastung und die Analyse dieser Modelle vor. Unsere Implementierung, der Unified Continuous Generative Models Trainer and Sampler (UCGM-{T,S}), erreicht state-of-the-art (SOTA) Leistung. Beispielsweise erreicht UCGM-T auf ImageNet 256x256 mit einem 675M Diffusion Transformer ein mehrstufiges Modell, das einen FID-Wert von 1,30 in 20 Schritten erzielt, und ein wenige-stufiges Modell, das einen FID-Wert von 1,42 in nur 2 Schritten erreicht. Darüber hinaus verbessert die Anwendung von UCGM-S auf ein vortrainiertes Modell (zuvor 1,26 FID bei 250 Schritten) die Leistung auf 1,06 FID in nur 40 Schritten. Der Code ist verfügbar unter: https://github.com/LINs-lab/UCGM.
English
Recent advances in continuous generative models, including multi-step
approaches like diffusion and flow-matching (typically requiring 8-1000
sampling steps) and few-step methods such as consistency models (typically 1-8
steps), have demonstrated impressive generative performance. However, existing
work often treats these approaches as distinct paradigms, resulting in separate
training and sampling methodologies. We introduce a unified framework for
training, sampling, and analyzing these models. Our implementation, the Unified
Continuous Generative Models Trainer and Sampler (UCGM-{T,S}), achieves
state-of-the-art (SOTA) performance. For example, on ImageNet 256x256 using a
675M diffusion transformer, UCGM-T trains a multi-step model achieving 1.30 FID
in 20 steps and a few-step model reaching 1.42 FID in just 2 steps.
Additionally, applying UCGM-S to a pre-trained model (previously 1.26 FID at
250 steps) improves performance to 1.06 FID in only 40 steps. Code is available
at: https://github.com/LINs-lab/UCGM.Summary
AI-Generated Summary