Podemos Gerar Imagens com CoT? Vamos Verificar e Reforçar a Geração de Imagens Passo a Passo.

Resumo

O raciocínio Encadeado de Pensamento (CoT) tem sido extensivamente explorado em grandes modelos para lidar com tarefas complexas de compreensão. No entanto, ainda permanece uma questão em aberto se tais estratégias podem ser aplicadas para verificar e reforçar cenários de geração de imagens. Neste artigo, fornecemos a primeira investigação abrangente do potencial do raciocínio CoT para aprimorar a geração de imagens autoregressivas. Focamos em três técnicas: escalonamento da computação em tempo de teste para verificação, alinhamento das preferências do modelo com a Otimização de Preferência Direta (DPO) e integração dessas técnicas para efeitos complementares. Nossos resultados demonstram que essas abordagens podem ser adaptadas e combinadas de forma eficaz para melhorar significativamente o desempenho na geração de imagens. Além disso, dada a função crucial dos modelos de recompensa em nossas descobertas, propomos o Modelo de Recompensa de Avaliação de Potencial (PARM) e PARM++, especializados para geração de imagens autoregressivas. O PARM avalia adaptativamente cada passo de geração por meio de uma abordagem de avaliação de potencial, fundindo os pontos fortes dos modelos de recompensa existentes, e o PARM++ introduz ainda um mecanismo de reflexão para autocorrigir a imagem gerada insatisfatória. Utilizando nossas estratégias de raciocínio investigadas, aprimoramos um modelo de referência, Show-o, para obter resultados superiores, com uma melhoria significativa de +24% no benchmark GenEval, superando o Stable Diffusion 3 em +15%. Esperamos que nosso estudo forneça insights únicos e abra um novo caminho para integrar o raciocínio CoT com a geração de imagens autoregressivas. O código e os modelos estão disponíveis em https://github.com/ZiyuGuo99/Image-Generation-CoT

English

Chain-of-Thought (CoT) reasoning has been extensively explored in large models to tackle complex understanding tasks. However, it still remains an open question whether such strategies can be applied to verifying and reinforcing image generation scenarios. In this paper, we provide the first comprehensive investigation of the potential of CoT reasoning to enhance autoregressive image generation. We focus on three techniques: scaling test-time computation for verification, aligning model preferences with Direct Preference Optimization (DPO), and integrating these techniques for complementary effects. Our results demonstrate that these approaches can be effectively adapted and combined to significantly improve image generation performance. Furthermore, given the pivotal role of reward models in our findings, we propose the Potential Assessment Reward Model (PARM) and PARM++, specialized for autoregressive image generation. PARM adaptively assesses each generation step through a potential assessment approach, merging the strengths of existing reward models, and PARM++ further introduces a reflection mechanism to self-correct the generated unsatisfactory image. Using our investigated reasoning strategies, we enhance a baseline model, Show-o, to achieve superior results, with a significant +24% improvement on the GenEval benchmark, surpassing Stable Diffusion 3 by +15%. We hope our study provides unique insights and paves a new path for integrating CoT reasoning with autoregressive image generation. Code and models are released at https://github.com/ZiyuGuo99/Image-Generation-CoT

Podemos Gerar Imagens com CoT? Vamos Verificar e Reforçar a Geração de Imagens Passo a Passo.

Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step

Resumo

Support