RePrompt: Redenering-versterkt Herprompten voor Tekst-naar-Beeld Generatie via Reinforcement Learning
RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning
May 23, 2025
Auteurs: Mingrui Wu, Lu Wang, Pu Zhao, Fangkai Yang, Jianjin Zhang, Jianfeng Liu, Yuefeng Zhan, Weihao Han, Hao Sun, Jiayi Ji, Xiaoshuai Sun, Qingwei Lin, Weiwei Deng, Dongmei Zhang, Feng Sun, Qi Zhang, Rongrong Ji
cs.AI
Samenvatting
Ondanks recente vooruitgang in tekst-naar-beeld (T2I) generatie, hebben bestaande modellen vaak moeite om gebruikersintenties nauwkeurig vast te leggen vanuit korte en ondergespecificeerde prompts. Hoewel eerder werk heeft geprobeerd prompts te verbeteren met behulp van grote taalmodellen (LLMs), genereren deze methoden vaak stilistische of onrealistische inhoud vanwege onvoldoende verankering in visuele semantiek en real-world compositie. Geïnspireerd door recente ontwikkelingen in redenering voor taalmodellen, stellen we RePrompt voor, een nieuw reprompting-framework dat expliciete redenering introduceert in het prompt-verbeteringsproces via reinforcement learning. In plaats van te vertrouwen op handmatige regels of stilistische herschrijvingen, traint onze methode een taalmodel om gestructureerde, zelfreflecterende prompts te genereren door te optimaliseren voor beeldniveau-uitkomsten. De op maat gemaakte beloningsmodellen beoordelen de gegenereerde beelden op basis van menselijke voorkeur, semantische uitlijning en visuele compositie, wat indirecte supervisie biedt om de promptgeneratie te verfijnen. Onze aanpak maakt end-to-end training mogelijk zonder door mensen geannoteerde data. Experimenten op GenEval en T2I-Compbench laten zien dat RePrompt de trouw aan ruimtelijke lay-out en compositorische generalisatie aanzienlijk verbetert over diverse T2I-backbones, wat nieuwe state-of-the-art resultaten oplevert.
English
Despite recent progress in text-to-image (T2I) generation, existing models
often struggle to faithfully capture user intentions from short and
under-specified prompts. While prior work has attempted to enhance prompts
using large language models (LLMs), these methods frequently generate stylistic
or unrealistic content due to insufficient grounding in visual semantics and
real-world composition. Inspired by recent advances in reasoning for language
model, we propose RePrompt, a novel reprompting framework that introduces
explicit reasoning into the prompt enhancement process via reinforcement
learning. Instead of relying on handcrafted rules or stylistic rewrites, our
method trains a language model to generate structured, self-reflective prompts
by optimizing for image-level outcomes. The tailored reward models assesse the
generated images in terms of human preference, semantic alignment, and visual
composition, providing indirect supervision to refine prompt generation. Our
approach enables end-to-end training without human-annotated data. Experiments
on GenEval and T2I-Compbench show that RePrompt significantly boosts spatial
layout fidelity and compositional generalization across diverse T2I backbones,
establishing new state-of-the-art results.