Visual-CoG: Aprendizaje por Refuerzo Consciente de Etapas con Cadena de Orientación para la Generación de Imágenes a partir de Texto

Resumen

A pesar del progreso prometedor de los modelos autorregresivos recientes en la generación de texto a imagen (T2I), su capacidad para manejar indicaciones con múltiples atributos y ambiguas sigue siendo limitada. Para abordar estas limitaciones, trabajos existentes han aplicado el enfoque de cadena de pensamiento (CoT) para permitir una síntesis visual consciente de las etapas y han empleado el aprendizaje por refuerzo (RL) para mejorar las capacidades de razonamiento. Sin embargo, la mayoría de los modelos proporcionan señales de recompensa únicamente al final de la etapa de generación. Esta guía monolítica y exclusivamente final dificulta la identificación de las etapas que contribuyen positivamente al resultado final y puede conducir a políticas subóptimas. Para resolver este problema, proponemos un paradigma de Cadena Visual de Guía (Visual-CoG) que consta de tres etapas: razonamiento semántico, refinamiento del proceso y evaluación del resultado, con recompensas conscientes de las etapas que proporcionan orientación inmediata a lo largo del proceso de generación de imágenes. Además, construimos un punto de referencia de cognición visual, VisCog-Bench, que comprende cuatro subtareas para evaluar la efectividad del razonamiento semántico. Evaluaciones exhaustivas en GenEval, T2I-CompBench y el propuesto VisCog-Bench muestran mejoras del 15%, 5% y 19%, respectivamente, demostrando el rendimiento superior del Visual-CoG propuesto. Pronto liberaremos todos los recursos.

English

Despite the promising progress of recent autoregressive models in text-to-image (T2I) generation, their ability to handle multi-attribute and ambiguous prompts remains limited. To address these limitations, existing works have applied chain-of-thought (CoT) to enable stage-aware visual synthesis and employed reinforcement learning (RL) to improve reasoning capabilities. However, most models provide reward signals only at the end of the generation stage. This monolithic final-only guidance makes it difficult to identify which stages contribute positively to the final outcome and may lead to suboptimal policies. To tackle this issue, we propose a Visual-Chain of Guidance (Visual-CoG) paradigm consisting of three stages: semantic reasoning, process refining, and outcome evaluation, with stage-aware rewards providing immediate guidance throughout the image generation pipeline. We further construct a visual cognition benchmark, VisCog-Bench, which comprises four subtasks to evaluate the effectiveness of semantic reasoning. Comprehensive evaluations on GenEval, T2I-CompBench, and the proposed VisCog-Bench show improvements of 15%, 5%, and 19%, respectively, demonstrating the superior performance of the proposed Visual-CoG. We will release all the resources soon.

Visual-CoG: Aprendizaje por Refuerzo Consciente de Etapas con Cadena de Orientación para la Generación de Imágenes a partir de Texto

Visual-CoG: Stage-Aware Reinforcement Learning with Chain of Guidance for Text-to-Image Generation

Resumen

Support