Visual-CoG: Fasebewust Reinforcement Learning met Ketting van Begeleiding voor Tekst-naar-Beeld Generatie
Visual-CoG: Stage-Aware Reinforcement Learning with Chain of Guidance for Text-to-Image Generation
August 25, 2025
Auteurs: Yaqi Li, Peng Chen, Mingyang Han, Bu Pi, Haoxiang Shi, Runzhou Zhao, Yang Yao, Xuan Zhang, Jun Song
cs.AI
Samenvatting
Ondanks de veelbelovende vooruitgang van recente autoregressieve modellen in tekst-naar-beeld (T2I) generatie, blijft hun vermogen om multi-attribuut en dubbelzinnige prompts te verwerken beperkt. Om deze beperkingen aan te pakken, hebben bestaande werken chain-of-thought (CoT) toegepast om fasebewuste visuele synthese mogelijk te maken en reinforcement learning (RL) ingezet om redeneervaardigheden te verbeteren. De meeste modellen bieden echter alleen beloningssignalen aan het einde van de generatiefase. Deze monolithische eindbegeleiding maakt het moeilijk om te identificeren welke fasen positief bijdragen aan het eindresultaat en kan leiden tot suboptimale beleidskeuzes. Om dit probleem aan te pakken, stellen we een Visual-Chain of Guidance (Visual-CoG) paradigma voor, bestaande uit drie fasen: semantisch redeneren, procesverfijning en uitkomstbeoordeling, waarbij fasebewuste beloningen directe begeleiding bieden gedurende de beeldgeneratiepijplijn. We construeren verder een visueel cognitiebenchmark, VisCog-Bench, dat vier subtaken omvat om de effectiviteit van semantisch redeneren te evalueren. Uitgebreide evaluaties op GenEval, T2I-CompBench en de voorgestelde VisCog-Bench laten verbeteringen zien van respectievelijk 15%, 5% en 19%, wat de superieure prestaties van het voorgestelde Visual-CoG aantoont. We zullen alle bronnen binnenkort vrijgeven.
English
Despite the promising progress of recent autoregressive models in
text-to-image (T2I) generation, their ability to handle multi-attribute and
ambiguous prompts remains limited. To address these limitations, existing works
have applied chain-of-thought (CoT) to enable stage-aware visual synthesis and
employed reinforcement learning (RL) to improve reasoning capabilities.
However, most models provide reward signals only at the end of the generation
stage. This monolithic final-only guidance makes it difficult to identify which
stages contribute positively to the final outcome and may lead to suboptimal
policies. To tackle this issue, we propose a Visual-Chain of Guidance
(Visual-CoG) paradigm consisting of three stages: semantic reasoning, process
refining, and outcome evaluation, with stage-aware rewards providing immediate
guidance throughout the image generation pipeline. We further construct a
visual cognition benchmark, VisCog-Bench, which comprises four subtasks to
evaluate the effectiveness of semantic reasoning. Comprehensive evaluations on
GenEval, T2I-CompBench, and the proposed VisCog-Bench show improvements of 15%,
5%, and 19%, respectively, demonstrating the superior performance of the
proposed Visual-CoG. We will release all the resources soon.