Можем ли мы создавать изображения с помощью CoT? Давайте проверим и укрепим этапы генерации изображения пошагово.
Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step
January 23, 2025
Авторы: Ziyu Guo, Renrui Zhang, Chengzhuo Tong, Zhizheng Zhao, Peng Gao, Hongsheng Li, Pheng-Ann Heng
cs.AI
Аннотация
Рассуждение по цепочке (CoT) было широко исследовано в крупных моделях для решения сложных задач понимания. Однако остаётся открытым вопрос, можно ли применять такие стратегии для верификации и укрепления сценариев генерации изображений. В данной статье мы представляем первое всестороннее исследование потенциала рассуждения по цепочке для улучшения авторегрессивной генерации изображений. Мы сосредотачиваемся на трёх техниках: масштабирование вычислений на этапе тестирования для верификации, выравнивание предпочтений модели с оптимизацией прямых предпочтений (DPO) и интеграция этих техник для достижения взаимодополняющих эффектов. Наши результаты показывают, что эти подходы могут быть эффективно адаптированы и объединены для значительного улучшения производительности генерации изображений. Более того, учитывая ключевую роль моделей вознаграждения в наших выводах, мы предлагаем модель вознаграждения оценки потенциала (PARM) и PARM++, специализированные для авторегрессивной генерации изображений. PARM адаптивно оценивает каждый шаг генерации через подход оценки потенциала, объединяя преимущества существующих моделей вознаграждения, а PARM++ дополнительно вводит механизм отражения для самокоррекции сгенерированного неудовлетворительного изображения. Используя наши исследованные стратегии рассуждения, мы улучшаем базовую модель, Show-o, чтобы достичь превосходных результатов, с значительным улучшением на 24% по показателям GenEval, превосходя Stable Diffusion 3 на 15%. Мы надеемся, что наше исследование предоставляет уникальные идеи и прокладывает новый путь для интеграции рассуждения по цепочке с авторегрессивной генерацией изображений. Код и модели доступны по ссылке https://github.com/ZiyuGuo99/Image-Generation-CoT
English
Chain-of-Thought (CoT) reasoning has been extensively explored in large
models to tackle complex understanding tasks. However, it still remains an open
question whether such strategies can be applied to verifying and reinforcing
image generation scenarios. In this paper, we provide the first comprehensive
investigation of the potential of CoT reasoning to enhance autoregressive image
generation. We focus on three techniques: scaling test-time computation for
verification, aligning model preferences with Direct Preference Optimization
(DPO), and integrating these techniques for complementary effects. Our results
demonstrate that these approaches can be effectively adapted and combined to
significantly improve image generation performance. Furthermore, given the
pivotal role of reward models in our findings, we propose the Potential
Assessment Reward Model (PARM) and PARM++, specialized for autoregressive image
generation. PARM adaptively assesses each generation step through a potential
assessment approach, merging the strengths of existing reward models, and
PARM++ further introduces a reflection mechanism to self-correct the generated
unsatisfactory image. Using our investigated reasoning strategies, we enhance a
baseline model, Show-o, to achieve superior results, with a significant +24%
improvement on the GenEval benchmark, surpassing Stable Diffusion 3 by +15%. We
hope our study provides unique insights and paves a new path for integrating
CoT reasoning with autoregressive image generation. Code and models are
released at https://github.com/ZiyuGuo99/Image-Generation-CoTSummary
AI-Generated Summary