Visual-CoG: Aprendizado por Reforço Consciente de Estágios com Cadeia de Orientação para Geração de Texto em Imagem
Visual-CoG: Stage-Aware Reinforcement Learning with Chain of Guidance for Text-to-Image Generation
August 25, 2025
Autores: Yaqi Li, Peng Chen, Mingyang Han, Bu Pi, Haoxiang Shi, Runzhou Zhao, Yang Yao, Xuan Zhang, Jun Song
cs.AI
Resumo
Apesar dos avanços promissores dos modelos autorregressivos recentes na geração de texto para imagem (T2I), sua capacidade de lidar com prompts multi-atributos e ambíguos permanece limitada. Para abordar essas limitações, trabalhos existentes aplicaram o conceito de cadeia de pensamento (CoT) para permitir a síntese visual consciente das etapas e empregaram o aprendizado por reforço (RL) para melhorar as capacidades de raciocínio. No entanto, a maioria dos modelos fornece sinais de recompensa apenas no final da etapa de geração. Essa orientação monolítica apenas no final dificulta a identificação de quais etapas contribuem positivamente para o resultado final e pode levar a políticas subótimas. Para resolver esse problema, propomos um paradigma de Cadeia Visual de Orientação (Visual-CoG) composto por três etapas: raciocínio semântico, refinamento do processo e avaliação do resultado, com recompensas conscientes das etapas fornecendo orientação imediata ao longo do pipeline de geração de imagens. Além disso, construímos um benchmark de cognição visual, VisCog-Bench, que compreende quatro subtarefas para avaliar a eficácia do raciocínio semântico. Avaliações abrangentes no GenEval, T2I-CompBench e no proposto VisCog-Bench mostram melhorias de 15%, 5% e 19%, respectivamente, demonstrando o desempenho superior do Visual-CoG proposto. Todos os recursos serão disponibilizados em breve.
English
Despite the promising progress of recent autoregressive models in
text-to-image (T2I) generation, their ability to handle multi-attribute and
ambiguous prompts remains limited. To address these limitations, existing works
have applied chain-of-thought (CoT) to enable stage-aware visual synthesis and
employed reinforcement learning (RL) to improve reasoning capabilities.
However, most models provide reward signals only at the end of the generation
stage. This monolithic final-only guidance makes it difficult to identify which
stages contribute positively to the final outcome and may lead to suboptimal
policies. To tackle this issue, we propose a Visual-Chain of Guidance
(Visual-CoG) paradigm consisting of three stages: semantic reasoning, process
refining, and outcome evaluation, with stage-aware rewards providing immediate
guidance throughout the image generation pipeline. We further construct a
visual cognition benchmark, VisCog-Bench, which comprises four subtasks to
evaluate the effectiveness of semantic reasoning. Comprehensive evaluations on
GenEval, T2I-CompBench, and the proposed VisCog-Bench show improvements of 15%,
5%, and 19%, respectively, demonstrating the superior performance of the
proposed Visual-CoG. We will release all the resources soon.