RePrompt : Reprompting augmenté par le raisonnement pour la génération texte-image via l'apprentissage par renforcement
RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning
May 23, 2025
Auteurs: Mingrui Wu, Lu Wang, Pu Zhao, Fangkai Yang, Jianjin Zhang, Jianfeng Liu, Yuefeng Zhan, Weihao Han, Hao Sun, Jiayi Ji, Xiaoshuai Sun, Qingwei Lin, Weiwei Deng, Dongmei Zhang, Feng Sun, Qi Zhang, Rongrong Ji
cs.AI
Résumé
Malgré les progrès récents dans la génération texte-image (T2I), les modèles existants peinent souvent à capturer fidèlement les intentions des utilisateurs à partir d'invites courtes et sous-spécifiées. Alors que des travaux antérieurs ont tenté d'améliorer les invites en utilisant des modèles de langage à grande échelle (LLMs), ces méthodes génèrent fréquemment un contenu stylisé ou irréaliste en raison d'un ancrage insuffisant dans la sémantique visuelle et la composition du monde réel. Inspirés par les avancées récentes en raisonnement pour les modèles de langage, nous proposons RePrompt, un nouveau cadre de reprompting qui introduit un raisonnement explicite dans le processus d'amélioration des invites via l'apprentissage par renforcement. Au lieu de s'appuyer sur des règles prédéfinies ou des réécritures stylistiques, notre méthode entraîne un modèle de langage à générer des invites structurées et auto-réfléchies en optimisant les résultats au niveau de l'image. Les modèles de récompense sur mesure évaluent les images générées en termes de préférence humaine, d'alignement sémantique et de composition visuelle, fournissant une supervision indirecte pour affiner la génération des invites. Notre approche permet un entraînement de bout en bout sans données annotées manuellement. Les expériences sur GenEval et T2I-Compbench montrent que RePrompt améliore significativement la fidélité de la disposition spatiale et la généralisation compositionnelle à travers divers modèles T2I, établissant de nouveaux résultats de pointe.
English
Despite recent progress in text-to-image (T2I) generation, existing models
often struggle to faithfully capture user intentions from short and
under-specified prompts. While prior work has attempted to enhance prompts
using large language models (LLMs), these methods frequently generate stylistic
or unrealistic content due to insufficient grounding in visual semantics and
real-world composition. Inspired by recent advances in reasoning for language
model, we propose RePrompt, a novel reprompting framework that introduces
explicit reasoning into the prompt enhancement process via reinforcement
learning. Instead of relying on handcrafted rules or stylistic rewrites, our
method trains a language model to generate structured, self-reflective prompts
by optimizing for image-level outcomes. The tailored reward models assesse the
generated images in terms of human preference, semantic alignment, and visual
composition, providing indirect supervision to refine prompt generation. Our
approach enables end-to-end training without human-annotated data. Experiments
on GenEval and T2I-Compbench show that RePrompt significantly boosts spatial
layout fidelity and compositional generalization across diverse T2I backbones,
establishing new state-of-the-art results.Summary
AI-Generated Summary