Pouvons-nous générer des images avec CoT ? Vérifions et renforçons la génération d'images étape par étape.
Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step
January 23, 2025
Auteurs: Ziyu Guo, Renrui Zhang, Chengzhuo Tong, Zhizheng Zhao, Peng Gao, Hongsheng Li, Pheng-Ann Heng
cs.AI
Résumé
Le raisonnement en chaîne de pensées (CoT) a été largement exploré dans de grands modèles pour aborder des tâches complexes de compréhension. Cependant, il reste encore une question ouverte de savoir si de telles stratégies peuvent être appliquées à la vérification et au renforcement des scénarios de génération d'images. Dans cet article, nous présentons la première investigation complète du potentiel du raisonnement CoT pour améliorer la génération d'images autorégressive. Nous nous concentrons sur trois techniques : l'échelle de calcul au moment du test pour la vérification, l'alignement des préférences du modèle avec l'Optimisation Directe des Préférences (DPO), et l'intégration de ces techniques pour des effets complémentaires. Nos résultats démontrent que ces approches peuvent être efficacement adaptées et combinées pour améliorer significativement les performances de génération d'images. De plus, étant donné le rôle crucial des modèles de récompense dans nos découvertes, nous proposons le Modèle de Récompense d'Évaluation Potentielle (PARM) et PARM++, spécialisés pour la génération d'images autorégressive. PARM évalue de manière adaptative chaque étape de génération grâce à une approche d'évaluation potentielle, fusionnant les forces des modèles de récompense existants, et PARM++ introduit en outre un mécanisme de réflexion pour corriger automatiquement l'image générée insatisfaisante. En utilisant nos stratégies de raisonnement étudiées, nous améliorons un modèle de base, Show-o, pour obtenir des résultats supérieurs, avec une amélioration significative de +24% sur le banc d'essai GenEval, dépassant Stable Diffusion 3 de +15%. Nous espérons que notre étude apporte des perspectives uniques et ouvre une nouvelle voie pour intégrer le raisonnement CoT à la génération d'images autorégressive. Le code et les modèles sont disponibles sur https://github.com/ZiyuGuo99/Image-Generation-CoT
English
Chain-of-Thought (CoT) reasoning has been extensively explored in large
models to tackle complex understanding tasks. However, it still remains an open
question whether such strategies can be applied to verifying and reinforcing
image generation scenarios. In this paper, we provide the first comprehensive
investigation of the potential of CoT reasoning to enhance autoregressive image
generation. We focus on three techniques: scaling test-time computation for
verification, aligning model preferences with Direct Preference Optimization
(DPO), and integrating these techniques for complementary effects. Our results
demonstrate that these approaches can be effectively adapted and combined to
significantly improve image generation performance. Furthermore, given the
pivotal role of reward models in our findings, we propose the Potential
Assessment Reward Model (PARM) and PARM++, specialized for autoregressive image
generation. PARM adaptively assesses each generation step through a potential
assessment approach, merging the strengths of existing reward models, and
PARM++ further introduces a reflection mechanism to self-correct the generated
unsatisfactory image. Using our investigated reasoning strategies, we enhance a
baseline model, Show-o, to achieve superior results, with a significant +24%
improvement on the GenEval benchmark, surpassing Stable Diffusion 3 by +15%. We
hope our study provides unique insights and paves a new path for integrating
CoT reasoning with autoregressive image generation. Code and models are
released at https://github.com/ZiyuGuo99/Image-Generation-CoTSummary
AI-Generated Summary