ChatPaper.aiChatPaper

Visual-CoG: Apprendimento per Rinforzo con Consapevolezza dello Stadio e Catena di Guida per la Generazione di Immagini da Testo

Visual-CoG: Stage-Aware Reinforcement Learning with Chain of Guidance for Text-to-Image Generation

August 25, 2025
Autori: Yaqi Li, Peng Chen, Mingyang Han, Bu Pi, Haoxiang Shi, Runzhou Zhao, Yang Yao, Xuan Zhang, Jun Song
cs.AI

Abstract

Nonostante i promettenti progressi dei recenti modelli autoregressivi nella generazione di immagini da testo (T2I), la loro capacità di gestire prompt multi-attributo e ambigui rimane limitata. Per affrontare queste limitazioni, i lavori esistenti hanno applicato il ragionamento a catena (CoT) per abilitare una sintesi visiva consapevole delle fasi e hanno impiegato l'apprendimento per rinforzo (RL) per migliorare le capacità di ragionamento. Tuttavia, la maggior parte dei modelli fornisce segnali di ricompensa solo alla fine della fase di generazione. Questa guida monolitica esclusivamente finale rende difficile identificare quali fasi contribuiscono positivamente al risultato finale e può portare a politiche subottimali. Per risolvere questo problema, proponiamo un paradigma di Catena Visiva di Guida (Visual-CoG) composto da tre fasi: ragionamento semantico, affinamento del processo e valutazione del risultato, con ricompense consapevoli delle fasi che forniscono una guida immediata lungo l'intera pipeline di generazione delle immagini. Inoltre, costruiamo un benchmark di cognizione visiva, VisCog-Bench, che comprende quattro sottotask per valutare l'efficacia del ragionamento semantico. Valutazioni complete su GenEval, T2I-CompBench e il proposto VisCog-Bench mostrano miglioramenti rispettivamente del 15%, 5% e 19%, dimostrando le prestazioni superiori del Visual-CoG proposto. Rilasceremo presto tutte le risorse.
English
Despite the promising progress of recent autoregressive models in text-to-image (T2I) generation, their ability to handle multi-attribute and ambiguous prompts remains limited. To address these limitations, existing works have applied chain-of-thought (CoT) to enable stage-aware visual synthesis and employed reinforcement learning (RL) to improve reasoning capabilities. However, most models provide reward signals only at the end of the generation stage. This monolithic final-only guidance makes it difficult to identify which stages contribute positively to the final outcome and may lead to suboptimal policies. To tackle this issue, we propose a Visual-Chain of Guidance (Visual-CoG) paradigm consisting of three stages: semantic reasoning, process refining, and outcome evaluation, with stage-aware rewards providing immediate guidance throughout the image generation pipeline. We further construct a visual cognition benchmark, VisCog-Bench, which comprises four subtasks to evaluate the effectiveness of semantic reasoning. Comprehensive evaluations on GenEval, T2I-CompBench, and the proposed VisCog-Bench show improvements of 15%, 5%, and 19%, respectively, demonstrating the superior performance of the proposed Visual-CoG. We will release all the resources soon.
PDF402August 26, 2025