Visual-CoG: Stufenbewusstes Reinforcement Learning mit einer Kette von Anleitungen für die Text-zu-Bild-Generierung
Visual-CoG: Stage-Aware Reinforcement Learning with Chain of Guidance for Text-to-Image Generation
August 25, 2025
papers.authors: Yaqi Li, Peng Chen, Mingyang Han, Bu Pi, Haoxiang Shi, Runzhou Zhao, Yang Yao, Xuan Zhang, Jun Song
cs.AI
papers.abstract
Trotz der vielversprechenden Fortschritte aktueller autoregressiver Modelle in der Text-zu-Bild (T2I)-Generierung bleibt ihre Fähigkeit, mehrfach attributierte und mehrdeutige Eingabeaufforderungen zu verarbeiten, begrenzt. Um diese Einschränkungen zu überwinden, haben bestehende Arbeiten die Chain-of-Thought (CoT)-Methode eingesetzt, um eine stufenbewusste visuelle Synthese zu ermöglichen, und Verstärkungslernen (Reinforcement Learning, RL) verwendet, um die Fähigkeiten zur logischen Schlussfolgerung zu verbessern. Die meisten Modelle liefern jedoch Belohnungssignale erst am Ende des Generierungsprozesses. Diese monolithische, ausschließlich finale Führung erschwert die Identifizierung derjenigen Stufen, die positiv zum Endergebnis beitragen, und kann zu suboptimalen Strategien führen. Um dieses Problem zu lösen, schlagen wir ein Paradigma der Visuellen Kette der Führung (Visual-Chain of Guidance, Visual-CoG) vor, das aus drei Stufen besteht: semantische Schlussfolgerung, Prozessverfeinerung und Ergebnisbewertung, wobei stufenbewusste Belohnungen eine unmittelbare Führung während des gesamten Bildgenerierungsprozesses bieten. Darüber hinaus entwickeln wir einen Benchmark für visuelle Kognition, VisCog-Bench, der vier Teilaufgaben umfasst, um die Effektivität der semantischen Schlussfolgerung zu bewerten. Umfassende Bewertungen auf GenEval, T2I-CompBench und dem vorgeschlagenen VisCog-Bench zeigen Verbesserungen von 15 %, 5 % bzw. 19 %, was die überlegene Leistung des vorgeschlagenen Visual-CoG demonstriert. Wir werden alle Ressourcen in Kürze veröffentlichen.
English
Despite the promising progress of recent autoregressive models in
text-to-image (T2I) generation, their ability to handle multi-attribute and
ambiguous prompts remains limited. To address these limitations, existing works
have applied chain-of-thought (CoT) to enable stage-aware visual synthesis and
employed reinforcement learning (RL) to improve reasoning capabilities.
However, most models provide reward signals only at the end of the generation
stage. This monolithic final-only guidance makes it difficult to identify which
stages contribute positively to the final outcome and may lead to suboptimal
policies. To tackle this issue, we propose a Visual-Chain of Guidance
(Visual-CoG) paradigm consisting of three stages: semantic reasoning, process
refining, and outcome evaluation, with stage-aware rewards providing immediate
guidance throughout the image generation pipeline. We further construct a
visual cognition benchmark, VisCog-Bench, which comprises four subtasks to
evaluate the effectiveness of semantic reasoning. Comprehensive evaluations on
GenEval, T2I-CompBench, and the proposed VisCog-Bench show improvements of 15%,
5%, and 19%, respectively, demonstrating the superior performance of the
proposed Visual-CoG. We will release all the resources soon.