Modelos Generativos Continuos Unificados
Unified Continuous Generative Models
May 12, 2025
Autores: Peng Sun, Yi Jiang, Tao Lin
cs.AI
Resumen
Los avances recientes en modelos generativos continuos, incluyendo enfoques de múltiples pasos como difusión y emparejamiento de flujos (que generalmente requieren de 8 a 1000 pasos de muestreo) y métodos de pocos pasos como los modelos de consistencia (típicamente de 1 a 8 pasos), han demostrado un rendimiento generativo impresionante. Sin embargo, el trabajo existente a menudo trata estos enfoques como paradigmas distintos, lo que resulta en metodologías de entrenamiento y muestreo separadas. Introducimos un marco unificado para el entrenamiento, muestreo y análisis de estos modelos. Nuestra implementación, el Entrenador y Muestreador Unificado de Modelos Generativos Continuos (UCGM-{T,S}), alcanza un rendimiento de vanguardia (SOTA). Por ejemplo, en ImageNet 256x256 utilizando un transformador de difusión de 675M, UCGM-T entrena un modelo de múltiples pasos que logra un FID de 1.30 en 20 pasos y un modelo de pocos pasos que alcanza un FID de 1.42 en solo 2 pasos. Además, al aplicar UCGM-S a un modelo preentrenado (anteriormente con un FID de 1.26 en 250 pasos), se mejora el rendimiento a un FID de 1.06 en solo 40 pasos. El código está disponible en: https://github.com/LINs-lab/UCGM.
English
Recent advances in continuous generative models, including multi-step
approaches like diffusion and flow-matching (typically requiring 8-1000
sampling steps) and few-step methods such as consistency models (typically 1-8
steps), have demonstrated impressive generative performance. However, existing
work often treats these approaches as distinct paradigms, resulting in separate
training and sampling methodologies. We introduce a unified framework for
training, sampling, and analyzing these models. Our implementation, the Unified
Continuous Generative Models Trainer and Sampler (UCGM-{T,S}), achieves
state-of-the-art (SOTA) performance. For example, on ImageNet 256x256 using a
675M diffusion transformer, UCGM-T trains a multi-step model achieving 1.30 FID
in 20 steps and a few-step model reaching 1.42 FID in just 2 steps.
Additionally, applying UCGM-S to a pre-trained model (previously 1.26 FID at
250 steps) improves performance to 1.06 FID in only 40 steps. Code is available
at: https://github.com/LINs-lab/UCGM.Summary
AI-Generated Summary