CoRe^2: Recopilar, Reflexionar y Refinar para Generar Mejor y Más Rápido
CoRe^2: Collect, Reflect and Refine to Generate Better and Faster
March 12, 2025
Autores: Shitong Shao, Zikai Zhou, Dian Xie, Yuetong Fang, Tian Ye, Lichen Bai, Zeke Xie
cs.AI
Resumen
Hacer que los modelos generativos de texto a imagen (T2I) muestreen tanto rápido como bien representa una dirección de investigación prometedora. Estudios previos generalmente se han centrado en mejorar la calidad visual de las imágenes sintetizadas a expensas de la eficiencia de muestreo o en acelerar drásticamente el muestreo sin mejorar la capacidad generativa del modelo base. Además, casi todos los métodos de inferencia no han logrado garantizar un rendimiento estable simultáneamente en modelos de difusión (DMs) y modelos autoregresivos visuales (ARMs). En este artículo, introducimos un nuevo paradigma de inferencia plug-and-play, CoRe^2, que comprende tres subprocesos: Collect, Reflect y Refine. CoRe^2 primero recopila trayectorias de guía sin clasificador (CFG), y luego utiliza los datos recopilados para entrenar un modelo débil que refleja los contenidos fáciles de aprender mientras reduce a la mitad el número de evaluaciones de funciones durante la inferencia. Posteriormente, CoRe^2 emplea guía de débil a fuerte para refinar la salida condicional, mejorando así la capacidad del modelo para generar contenido de alta frecuencia y realista, que es difícil de capturar para el modelo base. Hasta donde sabemos, CoRe^2 es el primero en demostrar tanto eficiencia como efectividad en una amplia gama de DMs, incluyendo SDXL, SD3.5 y FLUX, así como ARMs como LlamaGen. Ha mostrado mejoras significativas de rendimiento en HPD v2, Pick-of-Pic, Drawbench, GenEval y T2I-Compbench. Además, CoRe^2 puede integrarse sin problemas con el estado del arte Z-Sampling, superándolo en 0.3 y 0.16 en PickScore y AES, mientras logra un ahorro de tiempo de 5.64s usando SD3.5. El código se ha publicado en https://github.com/xie-lab-ml/CoRe/tree/main.
English
Making text-to-image (T2I) generative model sample both fast and well
represents a promising research direction. Previous studies have typically
focused on either enhancing the visual quality of synthesized images at the
expense of sampling efficiency or dramatically accelerating sampling without
improving the base model's generative capacity. Moreover, nearly all inference
methods have not been able to ensure stable performance simultaneously on both
diffusion models (DMs) and visual autoregressive models (ARMs). In this paper,
we introduce a novel plug-and-play inference paradigm, CoRe^2, which comprises
three subprocesses: Collect, Reflect, and Refine. CoRe^2 first collects
classifier-free guidance (CFG) trajectories, and then use collected data to
train a weak model that reflects the easy-to-learn contents while reducing
number of function evaluations during inference by half. Subsequently, CoRe^2
employs weak-to-strong guidance to refine the conditional output, thereby
improving the model's capacity to generate high-frequency and realistic
content, which is difficult for the base model to capture. To the best of our
knowledge, CoRe^2 is the first to demonstrate both efficiency and effectiveness
across a wide range of DMs, including SDXL, SD3.5, and FLUX, as well as ARMs
like LlamaGen. It has exhibited significant performance improvements on HPD v2,
Pick-of-Pic, Drawbench, GenEval, and T2I-Compbench. Furthermore, CoRe^2 can be
seamlessly integrated with the state-of-the-art Z-Sampling, outperforming it by
0.3 and 0.16 on PickScore and AES, while achieving 5.64s time saving using
SD3.5.Code is released at https://github.com/xie-lab-ml/CoRe/tree/main.Summary
AI-Generated Summary