Modelos Generativos Contínuos Unificados
Unified Continuous Generative Models
May 12, 2025
Autores: Peng Sun, Yi Jiang, Tao Lin
cs.AI
Resumo
Avanços recentes em modelos generativos contínuos, incluindo abordagens de múltiplos passos como difusão e correspondência de fluxo (geralmente exigindo 8-1000 passos de amostragem) e métodos de poucos passos, como modelos de consistência (tipicamente 1-8 passos), demonstraram desempenho generativo impressionante. No entanto, trabalhos existentes frequentemente tratam essas abordagens como paradigmas distintos, resultando em metodologias de treinamento e amostragem separadas. Introduzimos um framework unificado para treinar, amostrar e analisar esses modelos. Nossa implementação, o Unified Continuous Generative Models Trainer and Sampler (UCGM-{T,S}), alcança desempenho state-of-the-art (SOTA). Por exemplo, no ImageNet 256x256 usando um transformador de difusão de 675M, o UCGM-T treina um modelo de múltiplos passos alcançando 1.30 FID em 20 passos e um modelo de poucos passos atingindo 1.42 FID em apenas 2 passos. Além disso, aplicar o UCGM-S a um modelo pré-treinado (anteriormente 1.26 FID em 250 passos) melhora o desempenho para 1.06 FID em apenas 40 passos. O código está disponível em: https://github.com/LINs-lab/UCGM.
English
Recent advances in continuous generative models, including multi-step
approaches like diffusion and flow-matching (typically requiring 8-1000
sampling steps) and few-step methods such as consistency models (typically 1-8
steps), have demonstrated impressive generative performance. However, existing
work often treats these approaches as distinct paradigms, resulting in separate
training and sampling methodologies. We introduce a unified framework for
training, sampling, and analyzing these models. Our implementation, the Unified
Continuous Generative Models Trainer and Sampler (UCGM-{T,S}), achieves
state-of-the-art (SOTA) performance. For example, on ImageNet 256x256 using a
675M diffusion transformer, UCGM-T trains a multi-step model achieving 1.30 FID
in 20 steps and a few-step model reaching 1.42 FID in just 2 steps.
Additionally, applying UCGM-S to a pre-trained model (previously 1.26 FID at
250 steps) improves performance to 1.06 FID in only 40 steps. Code is available
at: https://github.com/LINs-lab/UCGM.