Visual-CoG : Apprentissage par renforcement sensible aux étapes avec chaîne de guidage pour la génération d'images à partir de texte
Visual-CoG: Stage-Aware Reinforcement Learning with Chain of Guidance for Text-to-Image Generation
August 25, 2025
papers.authors: Yaqi Li, Peng Chen, Mingyang Han, Bu Pi, Haoxiang Shi, Runzhou Zhao, Yang Yao, Xuan Zhang, Jun Song
cs.AI
papers.abstract
Malgré les progrès prometteurs des modèles autorégressifs récents dans la génération de texte à image (T2I), leur capacité à gérer des invites multi-attributs et ambiguës reste limitée. Pour pallier ces limitations, les travaux existants ont appliqué la chaîne de pensée (CoT) pour permettre une synthèse visuelle consciente des étapes et ont utilisé l'apprentissage par renforcement (RL) pour améliorer les capacités de raisonnement. Cependant, la plupart des modèles fournissent des signaux de récompense uniquement à la fin de l'étape de génération. Cette guidance monolithique uniquement finale rend difficile l'identification des étapes qui contribuent positivement au résultat final et peut conduire à des politiques sous-optimales. Pour résoudre ce problème, nous proposons un paradigme de Chaîne Visuelle de Guidance (Visual-CoG) composé de trois étapes : raisonnement sémantique, raffinement du processus et évaluation des résultats, avec des récompenses conscientes des étapes fournissant une guidance immédiate tout au long du pipeline de génération d'images. Nous construisons également un benchmark de cognition visuelle, VisCog-Bench, qui comprend quatre sous-tâches pour évaluer l'efficacité du raisonnement sémantique. Des évaluations approfondies sur GenEval, T2I-CompBench et le VisCog-Bench proposé montrent des améliorations de 15 %, 5 % et 19 %, respectivement, démontrant la performance supérieure du Visual-CoG proposé. Nous publierons bientôt toutes les ressources.
English
Despite the promising progress of recent autoregressive models in
text-to-image (T2I) generation, their ability to handle multi-attribute and
ambiguous prompts remains limited. To address these limitations, existing works
have applied chain-of-thought (CoT) to enable stage-aware visual synthesis and
employed reinforcement learning (RL) to improve reasoning capabilities.
However, most models provide reward signals only at the end of the generation
stage. This monolithic final-only guidance makes it difficult to identify which
stages contribute positively to the final outcome and may lead to suboptimal
policies. To tackle this issue, we propose a Visual-Chain of Guidance
(Visual-CoG) paradigm consisting of three stages: semantic reasoning, process
refining, and outcome evaluation, with stage-aware rewards providing immediate
guidance throughout the image generation pipeline. We further construct a
visual cognition benchmark, VisCog-Bench, which comprises four subtasks to
evaluate the effectiveness of semantic reasoning. Comprehensive evaluations on
GenEval, T2I-CompBench, and the proposed VisCog-Bench show improvements of 15%,
5%, and 19%, respectively, demonstrating the superior performance of the
proposed Visual-CoG. We will release all the resources soon.