Modelli Generativi Continui Unificati
Unified Continuous Generative Models
May 12, 2025
Autori: Peng Sun, Yi Jiang, Tao Lin
cs.AI
Abstract
I recenti progressi nei modelli generativi continui, inclusi approcci multi-step come la diffusione e il flow-matching (che tipicamente richiedono 8-1000 passaggi di campionamento) e metodi few-step come i consistency models (tipicamente 1-8 passaggi), hanno dimostrato prestazioni generative impressionanti. Tuttavia, il lavoro esistente spesso tratta questi approcci come paradigmi distinti, risultando in metodologie di addestramento e campionamento separate. Introduciamo un framework unificato per l'addestramento, il campionamento e l'analisi di questi modelli. La nostra implementazione, il Unified Continuous Generative Models Trainer and Sampler (UCGM-{T,S}), raggiunge prestazioni all'avanguardia (SOTA). Ad esempio, su ImageNet 256x256 utilizzando un transformer di diffusione da 675M, UCGM-T addestra un modello multi-step che raggiunge 1.30 FID in 20 passaggi e un modello few-step che raggiunge 1.42 FID in soli 2 passaggi. Inoltre, applicando UCGM-S a un modello pre-addestrato (precedentemente 1.26 FID a 250 passaggi) si migliora la performance a 1.06 FID in soli 40 passaggi. Il codice è disponibile su: https://github.com/LINs-lab/UCGM.
English
Recent advances in continuous generative models, including multi-step
approaches like diffusion and flow-matching (typically requiring 8-1000
sampling steps) and few-step methods such as consistency models (typically 1-8
steps), have demonstrated impressive generative performance. However, existing
work often treats these approaches as distinct paradigms, resulting in separate
training and sampling methodologies. We introduce a unified framework for
training, sampling, and analyzing these models. Our implementation, the Unified
Continuous Generative Models Trainer and Sampler (UCGM-{T,S}), achieves
state-of-the-art (SOTA) performance. For example, on ImageNet 256x256 using a
675M diffusion transformer, UCGM-T trains a multi-step model achieving 1.30 FID
in 20 steps and a few-step model reaching 1.42 FID in just 2 steps.
Additionally, applying UCGM-S to a pre-trained model (previously 1.26 FID at
250 steps) improves performance to 1.06 FID in only 40 steps. Code is available
at: https://github.com/LINs-lab/UCGM.