Possiamo Generare Immagini con CoT? Verifichiamo e Rinforziamo la Generazione di Immagini Passo dopo Passo.
Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step
January 23, 2025
Autori: Ziyu Guo, Renrui Zhang, Chengzhuo Tong, Zhizheng Zhao, Peng Gao, Hongsheng Li, Pheng-Ann Heng
cs.AI
Abstract
Il ragionamento a catena di pensiero (CoT) è stato ampiamente esplorato in modelli di grandi dimensioni per affrontare compiti di comprensione complessi. Tuttavia, rimane ancora aperta la questione se tali strategie possano essere applicate per verificare e potenziare scenari di generazione di immagini. In questo articolo, forniamo la prima indagine completa sul potenziale del ragionamento CoT per migliorare la generazione di immagini autoregressive. Ci concentriamo su tre tecniche: scalare il calcolo al momento del test per la verifica, allineare le preferenze del modello con l'ottimizzazione diretta delle preferenze (DPO) e integrare queste tecniche per effetti complementari. I nostri risultati dimostrano che questi approcci possono essere adattati ed combinati in modo efficace per migliorare significativamente le prestazioni di generazione di immagini. Inoltre, dato il ruolo cruciale dei modelli di ricompensa nei nostri risultati, proponiamo il Modello di Ricompensa di Valutazione del Potenziale (PARM) e PARM++, specializzati per la generazione di immagini autoregressive. PARM valuta in modo adattivo ciascun passaggio di generazione attraverso un approccio di valutazione del potenziale, unendo i punti di forza dei modelli di ricompensa esistenti, e PARM++ introduce ulteriormente un meccanismo di riflessione per autocorreggere l'immagine generata non soddisfacente. Utilizzando le nostre strategie di ragionamento esaminate, miglioriamo un modello di base, Show-o, per ottenere risultati superiori, con un significativo miglioramento del +24% nel benchmark GenEval, superando Stable Diffusion 3 del +15%. Speriamo che il nostro studio fornisca approfondimenti unici e getti le basi per integrare il ragionamento CoT con la generazione di immagini autoregressive. Il codice e i modelli sono disponibili su https://github.com/ZiyuGuo99/Image-Generation-CoT
English
Chain-of-Thought (CoT) reasoning has been extensively explored in large
models to tackle complex understanding tasks. However, it still remains an open
question whether such strategies can be applied to verifying and reinforcing
image generation scenarios. In this paper, we provide the first comprehensive
investigation of the potential of CoT reasoning to enhance autoregressive image
generation. We focus on three techniques: scaling test-time computation for
verification, aligning model preferences with Direct Preference Optimization
(DPO), and integrating these techniques for complementary effects. Our results
demonstrate that these approaches can be effectively adapted and combined to
significantly improve image generation performance. Furthermore, given the
pivotal role of reward models in our findings, we propose the Potential
Assessment Reward Model (PARM) and PARM++, specialized for autoregressive image
generation. PARM adaptively assesses each generation step through a potential
assessment approach, merging the strengths of existing reward models, and
PARM++ further introduces a reflection mechanism to self-correct the generated
unsatisfactory image. Using our investigated reasoning strategies, we enhance a
baseline model, Show-o, to achieve superior results, with a significant +24%
improvement on the GenEval benchmark, surpassing Stable Diffusion 3 by +15%. We
hope our study provides unique insights and paves a new path for integrating
CoT reasoning with autoregressive image generation. Code and models are
released at https://github.com/ZiyuGuo99/Image-Generation-CoTSummary
AI-Generated Summary