Visual-CoG: Aprendizado por Reforço Consciente de Estágios com Cadeia de Orientação para Geração de Texto em Imagem

Resumo

Apesar dos avanços promissores dos modelos autorregressivos recentes na geração de texto para imagem (T2I), sua capacidade de lidar com prompts multi-atributos e ambíguos permanece limitada. Para abordar essas limitações, trabalhos existentes aplicaram o conceito de cadeia de pensamento (CoT) para permitir a síntese visual consciente das etapas e empregaram o aprendizado por reforço (RL) para melhorar as capacidades de raciocínio. No entanto, a maioria dos modelos fornece sinais de recompensa apenas no final da etapa de geração. Essa orientação monolítica apenas no final dificulta a identificação de quais etapas contribuem positivamente para o resultado final e pode levar a políticas subótimas. Para resolver esse problema, propomos um paradigma de Cadeia Visual de Orientação (Visual-CoG) composto por três etapas: raciocínio semântico, refinamento do processo e avaliação do resultado, com recompensas conscientes das etapas fornecendo orientação imediata ao longo do pipeline de geração de imagens. Além disso, construímos um benchmark de cognição visual, VisCog-Bench, que compreende quatro subtarefas para avaliar a eficácia do raciocínio semântico. Avaliações abrangentes no GenEval, T2I-CompBench e no proposto VisCog-Bench mostram melhorias de 15%, 5% e 19%, respectivamente, demonstrando o desempenho superior do Visual-CoG proposto. Todos os recursos serão disponibilizados em breve.

English

Despite the promising progress of recent autoregressive models in text-to-image (T2I) generation, their ability to handle multi-attribute and ambiguous prompts remains limited. To address these limitations, existing works have applied chain-of-thought (CoT) to enable stage-aware visual synthesis and employed reinforcement learning (RL) to improve reasoning capabilities. However, most models provide reward signals only at the end of the generation stage. This monolithic final-only guidance makes it difficult to identify which stages contribute positively to the final outcome and may lead to suboptimal policies. To tackle this issue, we propose a Visual-Chain of Guidance (Visual-CoG) paradigm consisting of three stages: semantic reasoning, process refining, and outcome evaluation, with stage-aware rewards providing immediate guidance throughout the image generation pipeline. We further construct a visual cognition benchmark, VisCog-Bench, which comprises four subtasks to evaluate the effectiveness of semantic reasoning. Comprehensive evaluations on GenEval, T2I-CompBench, and the proposed VisCog-Bench show improvements of 15%, 5%, and 19%, respectively, demonstrating the superior performance of the proposed Visual-CoG. We will release all the resources soon.

Visual-CoG: Aprendizado por Reforço Consciente de Estágios com Cadeia de Orientação para Geração de Texto em Imagem

Visual-CoG: Stage-Aware Reinforcement Learning with Chain of Guidance for Text-to-Image Generation

Resumo

Support