¿Podemos Generar Imágenes con CoT? Verifiquemos y Reforcemos la Generación de Imágenes Paso a Paso.
Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step
January 23, 2025
Autores: Ziyu Guo, Renrui Zhang, Chengzhuo Tong, Zhizheng Zhao, Peng Gao, Hongsheng Li, Pheng-Ann Heng
cs.AI
Resumen
El razonamiento de Cadena de Pensamiento (CoT) ha sido ampliamente explorado en modelos grandes para abordar tareas de comprensión complejas. Sin embargo, aún queda abierta la pregunta de si tales estrategias pueden aplicarse para verificar y reforzar escenarios de generación de imágenes. En este documento, proporcionamos la primera investigación exhaustiva del potencial del razonamiento CoT para mejorar la generación de imágenes autoregresivas. Nos centramos en tres técnicas: escalando la computación en tiempo de prueba para verificación, alineando las preferencias del modelo con la Optimización de Preferencia Directa (DPO) e integrando estas técnicas para efectos complementarios. Nuestros resultados demuestran que estos enfoques pueden adaptarse y combinarse de manera efectiva para mejorar significativamente el rendimiento de generación de imágenes. Además, dado el papel fundamental de los modelos de recompensa en nuestros hallazgos, proponemos el Modelo de Recompensa de Evaluación de Potencial (PARM) y PARM++, especializados para la generación de imágenes autoregresivas. PARM evalúa de manera adaptativa cada paso de generación a través de un enfoque de evaluación de potencial, fusionando las fortalezas de los modelos de recompensa existentes, y PARM++ introduce además un mecanismo de reflexión para autocorregir la imagen generada insatisfactoria. Utilizando nuestras estrategias de razonamiento investigadas, mejoramos un modelo base, Show-o, para lograr resultados superiores, con una mejora significativa del +24% en el benchmark GenEval, superando a Stable Diffusion 3 en un +15%. Esperamos que nuestro estudio proporcione ideas únicas y allane un nuevo camino para integrar el razonamiento CoT con la generación de imágenes autoregresivas. El código y los modelos se encuentran disponibles en https://github.com/ZiyuGuo99/Image-Generation-CoT
English
Chain-of-Thought (CoT) reasoning has been extensively explored in large
models to tackle complex understanding tasks. However, it still remains an open
question whether such strategies can be applied to verifying and reinforcing
image generation scenarios. In this paper, we provide the first comprehensive
investigation of the potential of CoT reasoning to enhance autoregressive image
generation. We focus on three techniques: scaling test-time computation for
verification, aligning model preferences with Direct Preference Optimization
(DPO), and integrating these techniques for complementary effects. Our results
demonstrate that these approaches can be effectively adapted and combined to
significantly improve image generation performance. Furthermore, given the
pivotal role of reward models in our findings, we propose the Potential
Assessment Reward Model (PARM) and PARM++, specialized for autoregressive image
generation. PARM adaptively assesses each generation step through a potential
assessment approach, merging the strengths of existing reward models, and
PARM++ further introduces a reflection mechanism to self-correct the generated
unsatisfactory image. Using our investigated reasoning strategies, we enhance a
baseline model, Show-o, to achieve superior results, with a significant +24%
improvement on the GenEval benchmark, surpassing Stable Diffusion 3 by +15%. We
hope our study provides unique insights and paves a new path for integrating
CoT reasoning with autoregressive image generation. Code and models are
released at https://github.com/ZiyuGuo99/Image-Generation-CoTSummary
AI-Generated Summary