Modèles Génératifs Continus Unifiés
Unified Continuous Generative Models
May 12, 2025
Auteurs: Peng Sun, Yi Jiang, Tao Lin
cs.AI
Résumé
Les récents progrès dans les modèles génératifs continus, incluant les approches multi-étapes comme la diffusion et l'appariement de flux (nécessitant généralement 8 à 1000 étapes d'échantillonnage) ainsi que les méthodes à faible nombre d'étapes telles que les modèles de cohérence (généralement 1 à 8 étapes), ont démontré des performances génératives impressionnantes. Cependant, les travaux existants traitent souvent ces approches comme des paradigmes distincts, conduisant à des méthodologies d'entraînement et d'échantillonnage séparées. Nous introduisons un cadre unifié pour l'entraînement, l'échantillonnage et l'analyse de ces modèles. Notre implémentation, le Unified Continuous Generative Models Trainer and Sampler (UCGM-{T,S}), atteint des performances de pointe (SOTA). Par exemple, sur ImageNet 256x256 en utilisant un transformeur de diffusion de 675M, UCGM-T entraîne un modèle multi-étapes atteignant un FID de 1,30 en 20 étapes et un modèle à faible nombre d'étapes atteignant un FID de 1,42 en seulement 2 étapes. De plus, l'application d'UCGM-S à un modèle pré-entraîné (précédemment à 1,26 FID en 250 étapes) améliore les performances à 1,06 FID en seulement 40 étapes. Le code est disponible à l'adresse suivante : https://github.com/LINs-lab/UCGM.
English
Recent advances in continuous generative models, including multi-step
approaches like diffusion and flow-matching (typically requiring 8-1000
sampling steps) and few-step methods such as consistency models (typically 1-8
steps), have demonstrated impressive generative performance. However, existing
work often treats these approaches as distinct paradigms, resulting in separate
training and sampling methodologies. We introduce a unified framework for
training, sampling, and analyzing these models. Our implementation, the Unified
Continuous Generative Models Trainer and Sampler (UCGM-{T,S}), achieves
state-of-the-art (SOTA) performance. For example, on ImageNet 256x256 using a
675M diffusion transformer, UCGM-T trains a multi-step model achieving 1.30 FID
in 20 steps and a few-step model reaching 1.42 FID in just 2 steps.
Additionally, applying UCGM-S to a pre-trained model (previously 1.26 FID at
250 steps) improves performance to 1.06 FID in only 40 steps. Code is available
at: https://github.com/LINs-lab/UCGM.Summary
AI-Generated Summary