ChatPaper.aiChatPaper

PromptRL: Die Bedeutung von Prompts in RL für flussbasierte Bildgenerierung

PromptRL: Prompt Matters in RL for Flow-Based Image Generation

February 1, 2026
papers.authors: Fu-Yun Wang, Han Zhang, Michael Gharbi, Hongsheng Li, Taesung Park
cs.AI

papers.abstract

Flow-Matching-Modelle (FMs) haben die Text-zu-Bild-Generierung (T2I) revolutioniert, wobei Reinforcement Learning (RL) als kritische Nachtrainingsstrategie zur Ausrichtung an Belohnungszielen dient. In dieser Forschung zeigen wir, dass aktuelle RL-Pipelines für FMs unter zwei unterschätzten, aber wichtigen Einschränkungen leiden: Probenineffizienz aufgrund unzureichender Generierungsvielfalt und ausgeprägtes Prompt-Overfitting, bei dem Modelle spezifische Trainingsformulierungen auswendig lernen und einen dramatischen Leistungseinbruch zeigen, wenn sie mit semantisch äquivalenten, aber stilistisch variierten Prompts evaluiert werden. Wir stellen PromptRL (Prompt Matters in RL for Flow-Based Image Generation) vor, einen Framework, der Sprachmodelle (LMs) als trainierbare Prompt-Verfeinerungsagenten direkt in den flow-basierten RL-Optimierungsloop integriert. Dieses Design bietet zwei komplementäre Vorteile: die schnelle Entwicklung anspruchsvoller Prompt-Umformulierungsfähigkeiten und, entscheidend, ein synergetisches Trainingsregime, das die Optimierungsdynamik neu gestaltet. PromptRL erreicht state-of-the-art Leistung in mehreren Benchmarks, mit Werten von 0,97 bei GenEval, 0,98 bei OCR-Genauigkeit und 24,05 bei PickScore. Darüber hinaus validieren wir die Wirksamkeit unseres RL-Ansatzes an großskaligen Bildbearbeitungsmodellen und verbessern den EditReward von FLUX.1-dev von 1,19 auf 1,43 mit nur 0,06 Millionen Rollouts. Damit übertrifft es Gemini 2.5 Flash Image (auch bekannt als Nano Banana), das 1,37 erreicht, und erzielt eine vergleichbare Leistung wie ReasonNet (1,44), das auf feinkörnigen Datenannotationen zusammen mit einem komplexen mehrstufigen Training basierte. Unsere umfangreichen Experimente zeigen empirisch, dass PromptRL konsistent höhere Leistungsgrenzen erreicht, während es im Vergleich zu naivem flow-only RL über 2-mal weniger Rollouts benötigt. Unser Code ist verfügbar unter https://github.com/G-U-N/UniRL.
English
Flow matching models (FMs) have revolutionized text-to-image (T2I) generation, with reinforcement learning (RL) serving as a critical post-training strategy for alignment with reward objectives. In this research, we show that current RL pipelines for FMs suffer from two underappreciated yet important limitations: sample inefficiency due to insufficient generation diversity, and pronounced prompt overfitting, where models memorize specific training formulations and exhibit dramatic performance collapse when evaluated on semantically equivalent but stylistically varied prompts. We present PromptRL (Prompt Matters in RL for Flow-Based Image Generation), a framework that incorporates language models (LMs) as trainable prompt refinement agents directly within the flow-based RL optimization loop. This design yields two complementary benefits: rapid development of sophisticated prompt rewriting capabilities and, critically, a synergistic training regime that reshapes the optimization dynamics. PromptRL achieves state-of-the-art performance across multiple benchmarks, obtaining scores of 0.97 on GenEval, 0.98 on OCR accuracy, and 24.05 on PickScore. Furthermore, we validate the effectiveness of our RL approach on large-scale image editing models, improving the EditReward of FLUX.1-Kontext from 1.19 to 1.43 with only 0.06 million rollouts, surpassing Gemini 2.5 Flash Image (also known as Nano Banana), which scores 1.37, and achieving comparable performance with ReasonNet (1.44), which relied on fine-grained data annotations along with a complex multi-stage training. Our extensive experiments empirically demonstrate that PromptRL consistently achieves higher performance ceilings while requiring over 2times fewer rollouts compared to naive flow-only RL. Our code is available at https://github.com/G-U-N/UniRL.
PDF82February 7, 2026