Podemos Gerar Imagens com CoT? Vamos Verificar e Reforçar a Geração de Imagens Passo a Passo.
Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step
January 23, 2025
Autores: Ziyu Guo, Renrui Zhang, Chengzhuo Tong, Zhizheng Zhao, Peng Gao, Hongsheng Li, Pheng-Ann Heng
cs.AI
Resumo
O raciocínio Encadeado de Pensamento (CoT) tem sido extensivamente explorado em grandes modelos para lidar com tarefas complexas de compreensão. No entanto, ainda permanece uma questão em aberto se tais estratégias podem ser aplicadas para verificar e reforçar cenários de geração de imagens. Neste artigo, fornecemos a primeira investigação abrangente do potencial do raciocínio CoT para aprimorar a geração de imagens autoregressivas. Focamos em três técnicas: escalonamento da computação em tempo de teste para verificação, alinhamento das preferências do modelo com a Otimização de Preferência Direta (DPO) e integração dessas técnicas para efeitos complementares. Nossos resultados demonstram que essas abordagens podem ser adaptadas e combinadas de forma eficaz para melhorar significativamente o desempenho na geração de imagens. Além disso, dada a função crucial dos modelos de recompensa em nossas descobertas, propomos o Modelo de Recompensa de Avaliação de Potencial (PARM) e PARM++, especializados para geração de imagens autoregressivas. O PARM avalia adaptativamente cada passo de geração por meio de uma abordagem de avaliação de potencial, fundindo os pontos fortes dos modelos de recompensa existentes, e o PARM++ introduz ainda um mecanismo de reflexão para autocorrigir a imagem gerada insatisfatória. Utilizando nossas estratégias de raciocínio investigadas, aprimoramos um modelo de referência, Show-o, para obter resultados superiores, com uma melhoria significativa de +24% no benchmark GenEval, superando o Stable Diffusion 3 em +15%. Esperamos que nosso estudo forneça insights únicos e abra um novo caminho para integrar o raciocínio CoT com a geração de imagens autoregressivas. O código e os modelos estão disponíveis em https://github.com/ZiyuGuo99/Image-Generation-CoT
English
Chain-of-Thought (CoT) reasoning has been extensively explored in large
models to tackle complex understanding tasks. However, it still remains an open
question whether such strategies can be applied to verifying and reinforcing
image generation scenarios. In this paper, we provide the first comprehensive
investigation of the potential of CoT reasoning to enhance autoregressive image
generation. We focus on three techniques: scaling test-time computation for
verification, aligning model preferences with Direct Preference Optimization
(DPO), and integrating these techniques for complementary effects. Our results
demonstrate that these approaches can be effectively adapted and combined to
significantly improve image generation performance. Furthermore, given the
pivotal role of reward models in our findings, we propose the Potential
Assessment Reward Model (PARM) and PARM++, specialized for autoregressive image
generation. PARM adaptively assesses each generation step through a potential
assessment approach, merging the strengths of existing reward models, and
PARM++ further introduces a reflection mechanism to self-correct the generated
unsatisfactory image. Using our investigated reasoning strategies, we enhance a
baseline model, Show-o, to achieve superior results, with a significant +24%
improvement on the GenEval benchmark, surpassing Stable Diffusion 3 by +15%. We
hope our study provides unique insights and paves a new path for integrating
CoT reasoning with autoregressive image generation. Code and models are
released at https://github.com/ZiyuGuo99/Image-Generation-CoTSummary
AI-Generated Summary