Possiamo Generare Immagini con CoT? Verifichiamo e Rinforziamo la Generazione di Immagini Passo dopo Passo.

Abstract

Il ragionamento a catena di pensiero (CoT) è stato ampiamente esplorato in modelli di grandi dimensioni per affrontare compiti di comprensione complessi. Tuttavia, rimane ancora aperta la questione se tali strategie possano essere applicate per verificare e potenziare scenari di generazione di immagini. In questo articolo, forniamo la prima indagine completa sul potenziale del ragionamento CoT per migliorare la generazione di immagini autoregressive. Ci concentriamo su tre tecniche: scalare il calcolo al momento del test per la verifica, allineare le preferenze del modello con l'ottimizzazione diretta delle preferenze (DPO) e integrare queste tecniche per effetti complementari. I nostri risultati dimostrano che questi approcci possono essere adattati ed combinati in modo efficace per migliorare significativamente le prestazioni di generazione di immagini. Inoltre, dato il ruolo cruciale dei modelli di ricompensa nei nostri risultati, proponiamo il Modello di Ricompensa di Valutazione del Potenziale (PARM) e PARM++, specializzati per la generazione di immagini autoregressive. PARM valuta in modo adattivo ciascun passaggio di generazione attraverso un approccio di valutazione del potenziale, unendo i punti di forza dei modelli di ricompensa esistenti, e PARM++ introduce ulteriormente un meccanismo di riflessione per autocorreggere l'immagine generata non soddisfacente. Utilizzando le nostre strategie di ragionamento esaminate, miglioriamo un modello di base, Show-o, per ottenere risultati superiori, con un significativo miglioramento del +24% nel benchmark GenEval, superando Stable Diffusion 3 del +15%. Speriamo che il nostro studio fornisca approfondimenti unici e getti le basi per integrare il ragionamento CoT con la generazione di immagini autoregressive. Il codice e i modelli sono disponibili su https://github.com/ZiyuGuo99/Image-Generation-CoT

English

Chain-of-Thought (CoT) reasoning has been extensively explored in large models to tackle complex understanding tasks. However, it still remains an open question whether such strategies can be applied to verifying and reinforcing image generation scenarios. In this paper, we provide the first comprehensive investigation of the potential of CoT reasoning to enhance autoregressive image generation. We focus on three techniques: scaling test-time computation for verification, aligning model preferences with Direct Preference Optimization (DPO), and integrating these techniques for complementary effects. Our results demonstrate that these approaches can be effectively adapted and combined to significantly improve image generation performance. Furthermore, given the pivotal role of reward models in our findings, we propose the Potential Assessment Reward Model (PARM) and PARM++, specialized for autoregressive image generation. PARM adaptively assesses each generation step through a potential assessment approach, merging the strengths of existing reward models, and PARM++ further introduces a reflection mechanism to self-correct the generated unsatisfactory image. Using our investigated reasoning strategies, we enhance a baseline model, Show-o, to achieve superior results, with a significant +24% improvement on the GenEval benchmark, surpassing Stable Diffusion 3 by +15%. We hope our study provides unique insights and paves a new path for integrating CoT reasoning with autoregressive image generation. Code and models are released at https://github.com/ZiyuGuo99/Image-Generation-CoT

Possiamo Generare Immagini con CoT? Verifichiamo e Rinforziamo la Generazione di Immagini Passo dopo Passo.

Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step

Abstract

Support