RePrompt: Riprompting Aumentato dal Ragionamento per la Generazione di Immagini da Testo tramite Apprendimento per Rinforzo
RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning
May 23, 2025
Autori: Mingrui Wu, Lu Wang, Pu Zhao, Fangkai Yang, Jianjin Zhang, Jianfeng Liu, Yuefeng Zhan, Weihao Han, Hao Sun, Jiayi Ji, Xiaoshuai Sun, Qingwei Lin, Weiwei Deng, Dongmei Zhang, Feng Sun, Qi Zhang, Rongrong Ji
cs.AI
Abstract
Nonostante i recenti progressi nella generazione da testo a immagine (T2I), i modelli esistenti spesso faticano a catturare fedelmente le intenzioni dell'utente a partire da prompt brevi e poco specificati. Mentre lavori precedenti hanno tentato di migliorare i prompt utilizzando modelli linguistici di grandi dimensioni (LLM), questi metodi generano frequentemente contenuti stilistici o irrealistici a causa di un insufficiente ancoraggio nella semantica visiva e nella composizione del mondo reale. Ispirati dai recenti progressi nel ragionamento per i modelli linguistici, proponiamo RePrompt, un nuovo framework di riprompting che introduce un ragionamento esplicito nel processo di miglioramento dei prompt attraverso l'apprendimento per rinforzo. Invece di affidarsi a regole predefinite o riscritture stilistiche, il nostro metodo addestra un modello linguistico a generare prompt strutturati e auto-riflessivi ottimizzando i risultati a livello di immagine. I modelli di ricompensa personalizzati valutano le immagini generate in termini di preferenza umana, allineamento semantico e composizione visiva, fornendo una supervisione indiretta per affinare la generazione dei prompt. Il nostro approccio consente un addestramento end-to-end senza dati annotati manualmente. Gli esperimenti su GenEval e T2I-Compbench dimostrano che RePrompt migliora significativamente la fedeltà del layout spaziale e la generalizzazione compositiva attraverso diversi backbone T2I, stabilendo nuovi risultati all'avanguardia.
English
Despite recent progress in text-to-image (T2I) generation, existing models
often struggle to faithfully capture user intentions from short and
under-specified prompts. While prior work has attempted to enhance prompts
using large language models (LLMs), these methods frequently generate stylistic
or unrealistic content due to insufficient grounding in visual semantics and
real-world composition. Inspired by recent advances in reasoning for language
model, we propose RePrompt, a novel reprompting framework that introduces
explicit reasoning into the prompt enhancement process via reinforcement
learning. Instead of relying on handcrafted rules or stylistic rewrites, our
method trains a language model to generate structured, self-reflective prompts
by optimizing for image-level outcomes. The tailored reward models assesse the
generated images in terms of human preference, semantic alignment, and visual
composition, providing indirect supervision to refine prompt generation. Our
approach enables end-to-end training without human-annotated data. Experiments
on GenEval and T2I-Compbench show that RePrompt significantly boosts spatial
layout fidelity and compositional generalization across diverse T2I backbones,
establishing new state-of-the-art results.