Visual-CoG: Aprendizaje por Refuerzo Consciente de Etapas con Cadena de Orientación para la Generación de Imágenes a partir de Texto
Visual-CoG: Stage-Aware Reinforcement Learning with Chain of Guidance for Text-to-Image Generation
August 25, 2025
Autores: Yaqi Li, Peng Chen, Mingyang Han, Bu Pi, Haoxiang Shi, Runzhou Zhao, Yang Yao, Xuan Zhang, Jun Song
cs.AI
Resumen
A pesar del progreso prometedor de los modelos autorregresivos recientes en la generación de texto a imagen (T2I), su capacidad para manejar indicaciones con múltiples atributos y ambiguas sigue siendo limitada. Para abordar estas limitaciones, trabajos existentes han aplicado el enfoque de cadena de pensamiento (CoT) para permitir una síntesis visual consciente de las etapas y han empleado el aprendizaje por refuerzo (RL) para mejorar las capacidades de razonamiento. Sin embargo, la mayoría de los modelos proporcionan señales de recompensa únicamente al final de la etapa de generación. Esta guía monolítica y exclusivamente final dificulta la identificación de las etapas que contribuyen positivamente al resultado final y puede conducir a políticas subóptimas. Para resolver este problema, proponemos un paradigma de Cadena Visual de Guía (Visual-CoG) que consta de tres etapas: razonamiento semántico, refinamiento del proceso y evaluación del resultado, con recompensas conscientes de las etapas que proporcionan orientación inmediata a lo largo del proceso de generación de imágenes. Además, construimos un punto de referencia de cognición visual, VisCog-Bench, que comprende cuatro subtareas para evaluar la efectividad del razonamiento semántico. Evaluaciones exhaustivas en GenEval, T2I-CompBench y el propuesto VisCog-Bench muestran mejoras del 15%, 5% y 19%, respectivamente, demostrando el rendimiento superior del Visual-CoG propuesto. Pronto liberaremos todos los recursos.
English
Despite the promising progress of recent autoregressive models in
text-to-image (T2I) generation, their ability to handle multi-attribute and
ambiguous prompts remains limited. To address these limitations, existing works
have applied chain-of-thought (CoT) to enable stage-aware visual synthesis and
employed reinforcement learning (RL) to improve reasoning capabilities.
However, most models provide reward signals only at the end of the generation
stage. This monolithic final-only guidance makes it difficult to identify which
stages contribute positively to the final outcome and may lead to suboptimal
policies. To tackle this issue, we propose a Visual-Chain of Guidance
(Visual-CoG) paradigm consisting of three stages: semantic reasoning, process
refining, and outcome evaluation, with stage-aware rewards providing immediate
guidance throughout the image generation pipeline. We further construct a
visual cognition benchmark, VisCog-Bench, which comprises four subtasks to
evaluate the effectiveness of semantic reasoning. Comprehensive evaluations on
GenEval, T2I-CompBench, and the proposed VisCog-Bench show improvements of 15%,
5%, and 19%, respectively, demonstrating the superior performance of the
proposed Visual-CoG. We will release all the resources soon.