CoRe^2 : Collecter, Réfléchir et Affiner pour Générer Mieux et Plus Rapidement
CoRe^2: Collect, Reflect and Refine to Generate Better and Faster
March 12, 2025
Auteurs: Shitong Shao, Zikai Zhou, Dian Xie, Yuetong Fang, Tian Ye, Lichen Bai, Zeke Xie
cs.AI
Résumé
Rendre les modèles génératifs texte-image (T2I) à la fois rapides et performants représente une direction de recherche prometteuse. Les études précédentes se sont généralement concentrées soit sur l'amélioration de la qualité visuelle des images synthétisées au détriment de l'efficacité d'échantillonnage, soit sur l'accélération spectaculaire de l'échantillonnage sans améliorer la capacité générative du modèle de base. De plus, presque toutes les méthodes d'inférence n'ont pas été en mesure d'assurer des performances stables à la fois sur les modèles de diffusion (DMs) et les modèles autoregressifs visuels (ARMs). Dans cet article, nous introduisons un nouveau paradigme d'inférence plug-and-play, CoRe^2, qui comprend trois sous-processus : Collecte, Réflexion et Raffinement. CoRe^2 commence par collecter les trajectoires de guidage sans classifieur (CFG), puis utilise les données collectées pour entraîner un modèle faible qui reflète les contenus faciles à apprendre tout en réduisant de moitié le nombre d'évaluations de fonctions lors de l'inférence. Ensuite, CoRe^2 emploie un guidage faible-vers-fort pour raffiner la sortie conditionnelle, améliorant ainsi la capacité du modèle à générer des contenus haute fréquence et réalistes, difficiles à capturer pour le modèle de base. À notre connaissance, CoRe^2 est le premier à démontrer à la fois efficacité et efficience sur une large gamme de DMs, incluant SDXL, SD3.5 et FLUX, ainsi que sur des ARMs comme LlamaGen. Il a montré des améliorations significatives de performance sur HPD v2, Pick-of-Pic, Drawbench, GenEval et T2I-Compbench. De plus, CoRe^2 peut être intégré de manière transparente avec l'état de l'art Z-Sampling, le surpassant de 0.3 et 0.16 sur PickScore et AES, tout en réalisant une économie de temps de 5.64s avec SD3.5. Le code est disponible à l'adresse https://github.com/xie-lab-ml/CoRe/tree/main.
English
Making text-to-image (T2I) generative model sample both fast and well
represents a promising research direction. Previous studies have typically
focused on either enhancing the visual quality of synthesized images at the
expense of sampling efficiency or dramatically accelerating sampling without
improving the base model's generative capacity. Moreover, nearly all inference
methods have not been able to ensure stable performance simultaneously on both
diffusion models (DMs) and visual autoregressive models (ARMs). In this paper,
we introduce a novel plug-and-play inference paradigm, CoRe^2, which comprises
three subprocesses: Collect, Reflect, and Refine. CoRe^2 first collects
classifier-free guidance (CFG) trajectories, and then use collected data to
train a weak model that reflects the easy-to-learn contents while reducing
number of function evaluations during inference by half. Subsequently, CoRe^2
employs weak-to-strong guidance to refine the conditional output, thereby
improving the model's capacity to generate high-frequency and realistic
content, which is difficult for the base model to capture. To the best of our
knowledge, CoRe^2 is the first to demonstrate both efficiency and effectiveness
across a wide range of DMs, including SDXL, SD3.5, and FLUX, as well as ARMs
like LlamaGen. It has exhibited significant performance improvements on HPD v2,
Pick-of-Pic, Drawbench, GenEval, and T2I-Compbench. Furthermore, CoRe^2 can be
seamlessly integrated with the state-of-the-art Z-Sampling, outperforming it by
0.3 and 0.16 on PickScore and AES, while achieving 5.64s time saving using
SD3.5.Code is released at https://github.com/xie-lab-ml/CoRe/tree/main.