Visual-CoG : Apprentissage par renforcement sensible aux étapes avec chaîne de guidage pour la génération d'images à partir de texte

papers.abstract

Malgré les progrès prometteurs des modèles autorégressifs récents dans la génération de texte à image (T2I), leur capacité à gérer des invites multi-attributs et ambiguës reste limitée. Pour pallier ces limitations, les travaux existants ont appliqué la chaîne de pensée (CoT) pour permettre une synthèse visuelle consciente des étapes et ont utilisé l'apprentissage par renforcement (RL) pour améliorer les capacités de raisonnement. Cependant, la plupart des modèles fournissent des signaux de récompense uniquement à la fin de l'étape de génération. Cette guidance monolithique uniquement finale rend difficile l'identification des étapes qui contribuent positivement au résultat final et peut conduire à des politiques sous-optimales. Pour résoudre ce problème, nous proposons un paradigme de Chaîne Visuelle de Guidance (Visual-CoG) composé de trois étapes : raisonnement sémantique, raffinement du processus et évaluation des résultats, avec des récompenses conscientes des étapes fournissant une guidance immédiate tout au long du pipeline de génération d'images. Nous construisons également un benchmark de cognition visuelle, VisCog-Bench, qui comprend quatre sous-tâches pour évaluer l'efficacité du raisonnement sémantique. Des évaluations approfondies sur GenEval, T2I-CompBench et le VisCog-Bench proposé montrent des améliorations de 15 %, 5 % et 19 %, respectivement, démontrant la performance supérieure du Visual-CoG proposé. Nous publierons bientôt toutes les ressources.

English

Despite the promising progress of recent autoregressive models in text-to-image (T2I) generation, their ability to handle multi-attribute and ambiguous prompts remains limited. To address these limitations, existing works have applied chain-of-thought (CoT) to enable stage-aware visual synthesis and employed reinforcement learning (RL) to improve reasoning capabilities. However, most models provide reward signals only at the end of the generation stage. This monolithic final-only guidance makes it difficult to identify which stages contribute positively to the final outcome and may lead to suboptimal policies. To tackle this issue, we propose a Visual-Chain of Guidance (Visual-CoG) paradigm consisting of three stages: semantic reasoning, process refining, and outcome evaluation, with stage-aware rewards providing immediate guidance throughout the image generation pipeline. We further construct a visual cognition benchmark, VisCog-Bench, which comprises four subtasks to evaluate the effectiveness of semantic reasoning. Comprehensive evaluations on GenEval, T2I-CompBench, and the proposed VisCog-Bench show improvements of 15%, 5%, and 19%, respectively, demonstrating the superior performance of the proposed Visual-CoG. We will release all the resources soon.

Visual-CoG : Apprentissage par renforcement sensible aux étapes avec chaîne de guidage pour la génération d'images à partir de texte

Visual-CoG: Stage-Aware Reinforcement Learning with Chain of Guidance for Text-to-Image Generation

papers.abstract

Support