ChatPaper.aiChatPaper

RePrompt : Reprompting augmenté par le raisonnement pour la génération texte-image via l'apprentissage par renforcement

RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning

May 23, 2025
Auteurs: Mingrui Wu, Lu Wang, Pu Zhao, Fangkai Yang, Jianjin Zhang, Jianfeng Liu, Yuefeng Zhan, Weihao Han, Hao Sun, Jiayi Ji, Xiaoshuai Sun, Qingwei Lin, Weiwei Deng, Dongmei Zhang, Feng Sun, Qi Zhang, Rongrong Ji
cs.AI

Résumé

Malgré les progrès récents dans la génération texte-image (T2I), les modèles existants peinent souvent à capturer fidèlement les intentions des utilisateurs à partir d'invites courtes et sous-spécifiées. Alors que des travaux antérieurs ont tenté d'améliorer les invites en utilisant des modèles de langage à grande échelle (LLMs), ces méthodes génèrent fréquemment un contenu stylisé ou irréaliste en raison d'un ancrage insuffisant dans la sémantique visuelle et la composition du monde réel. Inspirés par les avancées récentes en raisonnement pour les modèles de langage, nous proposons RePrompt, un nouveau cadre de reprompting qui introduit un raisonnement explicite dans le processus d'amélioration des invites via l'apprentissage par renforcement. Au lieu de s'appuyer sur des règles prédéfinies ou des réécritures stylistiques, notre méthode entraîne un modèle de langage à générer des invites structurées et auto-réfléchies en optimisant les résultats au niveau de l'image. Les modèles de récompense sur mesure évaluent les images générées en termes de préférence humaine, d'alignement sémantique et de composition visuelle, fournissant une supervision indirecte pour affiner la génération des invites. Notre approche permet un entraînement de bout en bout sans données annotées manuellement. Les expériences sur GenEval et T2I-Compbench montrent que RePrompt améliore significativement la fidélité de la disposition spatiale et la généralisation compositionnelle à travers divers modèles T2I, établissant de nouveaux résultats de pointe.
English
Despite recent progress in text-to-image (T2I) generation, existing models often struggle to faithfully capture user intentions from short and under-specified prompts. While prior work has attempted to enhance prompts using large language models (LLMs), these methods frequently generate stylistic or unrealistic content due to insufficient grounding in visual semantics and real-world composition. Inspired by recent advances in reasoning for language model, we propose RePrompt, a novel reprompting framework that introduces explicit reasoning into the prompt enhancement process via reinforcement learning. Instead of relying on handcrafted rules or stylistic rewrites, our method trains a language model to generate structured, self-reflective prompts by optimizing for image-level outcomes. The tailored reward models assesse the generated images in terms of human preference, semantic alignment, and visual composition, providing indirect supervision to refine prompt generation. Our approach enables end-to-end training without human-annotated data. Experiments on GenEval and T2I-Compbench show that RePrompt significantly boosts spatial layout fidelity and compositional generalization across diverse T2I backbones, establishing new state-of-the-art results.

Summary

AI-Generated Summary

PDF72May 26, 2025