ChatPaper.aiChatPaper

Pouvons-nous générer des images avec CoT ? Vérifions et renforçons la génération d'images étape par étape.

Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step

January 23, 2025
Auteurs: Ziyu Guo, Renrui Zhang, Chengzhuo Tong, Zhizheng Zhao, Peng Gao, Hongsheng Li, Pheng-Ann Heng
cs.AI

Résumé

Le raisonnement en chaîne de pensées (CoT) a été largement exploré dans de grands modèles pour aborder des tâches complexes de compréhension. Cependant, il reste encore une question ouverte de savoir si de telles stratégies peuvent être appliquées à la vérification et au renforcement des scénarios de génération d'images. Dans cet article, nous présentons la première investigation complète du potentiel du raisonnement CoT pour améliorer la génération d'images autorégressive. Nous nous concentrons sur trois techniques : l'échelle de calcul au moment du test pour la vérification, l'alignement des préférences du modèle avec l'Optimisation Directe des Préférences (DPO), et l'intégration de ces techniques pour des effets complémentaires. Nos résultats démontrent que ces approches peuvent être efficacement adaptées et combinées pour améliorer significativement les performances de génération d'images. De plus, étant donné le rôle crucial des modèles de récompense dans nos découvertes, nous proposons le Modèle de Récompense d'Évaluation Potentielle (PARM) et PARM++, spécialisés pour la génération d'images autorégressive. PARM évalue de manière adaptative chaque étape de génération grâce à une approche d'évaluation potentielle, fusionnant les forces des modèles de récompense existants, et PARM++ introduit en outre un mécanisme de réflexion pour corriger automatiquement l'image générée insatisfaisante. En utilisant nos stratégies de raisonnement étudiées, nous améliorons un modèle de base, Show-o, pour obtenir des résultats supérieurs, avec une amélioration significative de +24% sur le banc d'essai GenEval, dépassant Stable Diffusion 3 de +15%. Nous espérons que notre étude apporte des perspectives uniques et ouvre une nouvelle voie pour intégrer le raisonnement CoT à la génération d'images autorégressive. Le code et les modèles sont disponibles sur https://github.com/ZiyuGuo99/Image-Generation-CoT
English
Chain-of-Thought (CoT) reasoning has been extensively explored in large models to tackle complex understanding tasks. However, it still remains an open question whether such strategies can be applied to verifying and reinforcing image generation scenarios. In this paper, we provide the first comprehensive investigation of the potential of CoT reasoning to enhance autoregressive image generation. We focus on three techniques: scaling test-time computation for verification, aligning model preferences with Direct Preference Optimization (DPO), and integrating these techniques for complementary effects. Our results demonstrate that these approaches can be effectively adapted and combined to significantly improve image generation performance. Furthermore, given the pivotal role of reward models in our findings, we propose the Potential Assessment Reward Model (PARM) and PARM++, specialized for autoregressive image generation. PARM adaptively assesses each generation step through a potential assessment approach, merging the strengths of existing reward models, and PARM++ further introduces a reflection mechanism to self-correct the generated unsatisfactory image. Using our investigated reasoning strategies, we enhance a baseline model, Show-o, to achieve superior results, with a significant +24% improvement on the GenEval benchmark, surpassing Stable Diffusion 3 by +15%. We hope our study provides unique insights and paves a new path for integrating CoT reasoning with autoregressive image generation. Code and models are released at https://github.com/ZiyuGuo99/Image-Generation-CoT

Summary

AI-Generated Summary

PDF422January 24, 2025