RePrompt: Grundlagen-gestütztes Reprompting für die Text-zu-Bild-Generierung mittels Reinforcement Learning
RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning
May 23, 2025
Autoren: Mingrui Wu, Lu Wang, Pu Zhao, Fangkai Yang, Jianjin Zhang, Jianfeng Liu, Yuefeng Zhan, Weihao Han, Hao Sun, Jiayi Ji, Xiaoshuai Sun, Qingwei Lin, Weiwei Deng, Dongmei Zhang, Feng Sun, Qi Zhang, Rongrong Ji
cs.AI
Zusammenfassung
Trotz der jüngsten Fortschritte in der Text-zu-Bild (T2I)-Generierung haben bestehende Modelle oft Schwierigkeiten, die Absichten der Nutzer aus kurzen und unzureichend spezifizierten Eingabeaufforderungen (Prompts) treu zu erfassen. Während frühere Arbeiten versucht haben, Prompts mithilfe großer Sprachmodelle (LLMs) zu verbessern, erzeugen diese Methoden häufig stilistische oder unrealistische Inhalte aufgrund unzureichender Verankerung in visueller Semantik und realer Komposition. Inspiriert von den jüngsten Fortschritten im Bereich des logischen Schließens für Sprachmodelle schlagen wir RePrompt vor, ein neuartiges Reprompting-Framework, das explizites logisches Schließen in den Prozess der Prompt-Verbesserung durch Reinforcement Learning einführt. Anstatt sich auf manuell erstellte Regeln oder stilistische Umschreibungen zu verlassen, trainiert unsere Methode ein Sprachmodell dazu, strukturierte, selbstreflektierende Prompts zu generieren, indem es Bild-Level-Ergebnisse optimiert. Die maßgeschneiderten Belohnungsmodelle bewerten die generierten Bilder hinsichtlich menschlicher Präferenzen, semantischer Ausrichtung und visueller Komposition und bieten so indirekte Überwachung zur Verfeinerung der Prompt-Generierung. Unser Ansatz ermöglicht ein End-to-End-Training ohne menschlich annotierte Daten. Experimente auf GenEval und T2I-Compbench zeigen, dass RePrompt die Treue der räumlichen Anordnung und die kompositionelle Generalisierung über verschiedene T2I-Backbones hinweg signifikant verbessert und damit neue State-of-the-Art-Ergebnisse erzielt.
English
Despite recent progress in text-to-image (T2I) generation, existing models
often struggle to faithfully capture user intentions from short and
under-specified prompts. While prior work has attempted to enhance prompts
using large language models (LLMs), these methods frequently generate stylistic
or unrealistic content due to insufficient grounding in visual semantics and
real-world composition. Inspired by recent advances in reasoning for language
model, we propose RePrompt, a novel reprompting framework that introduces
explicit reasoning into the prompt enhancement process via reinforcement
learning. Instead of relying on handcrafted rules or stylistic rewrites, our
method trains a language model to generate structured, self-reflective prompts
by optimizing for image-level outcomes. The tailored reward models assesse the
generated images in terms of human preference, semantic alignment, and visual
composition, providing indirect supervision to refine prompt generation. Our
approach enables end-to-end training without human-annotated data. Experiments
on GenEval and T2I-Compbench show that RePrompt significantly boosts spatial
layout fidelity and compositional generalization across diverse T2I backbones,
establishing new state-of-the-art results.Summary
AI-Generated Summary