¿Podemos Generar Imágenes con CoT? Verifiquemos y Reforcemos la Generación de Imágenes Paso a Paso.

Resumen

El razonamiento de Cadena de Pensamiento (CoT) ha sido ampliamente explorado en modelos grandes para abordar tareas de comprensión complejas. Sin embargo, aún queda abierta la pregunta de si tales estrategias pueden aplicarse para verificar y reforzar escenarios de generación de imágenes. En este documento, proporcionamos la primera investigación exhaustiva del potencial del razonamiento CoT para mejorar la generación de imágenes autoregresivas. Nos centramos en tres técnicas: escalando la computación en tiempo de prueba para verificación, alineando las preferencias del modelo con la Optimización de Preferencia Directa (DPO) e integrando estas técnicas para efectos complementarios. Nuestros resultados demuestran que estos enfoques pueden adaptarse y combinarse de manera efectiva para mejorar significativamente el rendimiento de generación de imágenes. Además, dado el papel fundamental de los modelos de recompensa en nuestros hallazgos, proponemos el Modelo de Recompensa de Evaluación de Potencial (PARM) y PARM++, especializados para la generación de imágenes autoregresivas. PARM evalúa de manera adaptativa cada paso de generación a través de un enfoque de evaluación de potencial, fusionando las fortalezas de los modelos de recompensa existentes, y PARM++ introduce además un mecanismo de reflexión para autocorregir la imagen generada insatisfactoria. Utilizando nuestras estrategias de razonamiento investigadas, mejoramos un modelo base, Show-o, para lograr resultados superiores, con una mejora significativa del +24% en el benchmark GenEval, superando a Stable Diffusion 3 en un +15%. Esperamos que nuestro estudio proporcione ideas únicas y allane un nuevo camino para integrar el razonamiento CoT con la generación de imágenes autoregresivas. El código y los modelos se encuentran disponibles en https://github.com/ZiyuGuo99/Image-Generation-CoT

English

Chain-of-Thought (CoT) reasoning has been extensively explored in large models to tackle complex understanding tasks. However, it still remains an open question whether such strategies can be applied to verifying and reinforcing image generation scenarios. In this paper, we provide the first comprehensive investigation of the potential of CoT reasoning to enhance autoregressive image generation. We focus on three techniques: scaling test-time computation for verification, aligning model preferences with Direct Preference Optimization (DPO), and integrating these techniques for complementary effects. Our results demonstrate that these approaches can be effectively adapted and combined to significantly improve image generation performance. Furthermore, given the pivotal role of reward models in our findings, we propose the Potential Assessment Reward Model (PARM) and PARM++, specialized for autoregressive image generation. PARM adaptively assesses each generation step through a potential assessment approach, merging the strengths of existing reward models, and PARM++ further introduces a reflection mechanism to self-correct the generated unsatisfactory image. Using our investigated reasoning strategies, we enhance a baseline model, Show-o, to achieve superior results, with a significant +24% improvement on the GenEval benchmark, surpassing Stable Diffusion 3 by +15%. We hope our study provides unique insights and paves a new path for integrating CoT reasoning with autoregressive image generation. Code and models are released at https://github.com/ZiyuGuo99/Image-Generation-CoT

¿Podemos Generar Imágenes con CoT? Verifiquemos y Reforcemos la Generación de Imágenes Paso a Paso.

Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step

Resumen

Support