PromptRL: Prompt is cruciaal bij RL voor op stroming gebaseerde beeldgeneratie
PromptRL: Prompt Matters in RL for Flow-Based Image Generation
February 1, 2026
Auteurs: Fu-Yun Wang, Han Zhang, Michael Gharbi, Hongsheng Li, Taesung Park
cs.AI
Samenvatting
Flow matching-modellen (FM's) hebben een revolutie teweeggebracht in tekst-naar-beeld (T2I) generatie, waarbij reinforcement learning (RL) een cruciale post-training strategie is voor afstemming op beloningsdoelen. In dit onderzoek tonen we aan dat huidige RL-pipelines voor FM's lijden onder twee onderschatte maar belangrijke beperkingen: sample-inefficiëntie door onvoldoende generatiediversiteit, en uitgesproken promptoverfitting, waarbij modellen specifieke trainingsformuleringen memoriseren en een dramatische prestatie-ineenstorting vertonen wanneer geëvalueerd met semantisch equivalente maar stilistisch gevarieerde prompts. Wij presenteren PromptRL (Prompt Matters in RL for Flow-Based Image Generation), een raamwerk dat taalmodellen (LM's) integreert als trainbare promptverfijningsagenten direct binnen de op flow gebaseerde RL-optimalisatielus. Dit ontwerp levert twee complementaire voordelen op: de snelle ontwikkeling van geavanceerde promptherschrijfcapaciteiten en, cruciaal, een synergetisch trainingsregime dat de optimalisatiedynamiek hervormt. PromptRL behaalt state-of-the-art prestaties op meerdere benchmarks, met scores van 0.97 op GenEval, 0.98 op OCR-nauwkeurigheid en 24.05 op PickScore.
Verder valideren we de effectiviteit van onze RL-aanpak op grootschalige beeldbewerkingsmodellen, waarbij we de EditReward van FLUX.1-Kontext verbeteren van 1.19 naar 1.43 met slechts 0.06 miljoen rollouts. Dit overtreft Gemini 2.5 Flash Image (ook wel Nano Banana genoemd), dat een score van 1.37 behaalt, en bereikt vergelijkbare prestaties met ReasonNet (1.44), dat afhankelijk was van fijnmazige data-annotaties samen met een complexe meerfasen training. Onze uitgebreide experimenten tonen empirisch aan dat PromptRL consistent hogere prestatieplafonds bereikt terwijl het meer dan 2x minder rollouts vereist in vergelijking met naïeve flow-only RL. Onze code is beschikbaar op https://github.com/G-U-N/UniRL.
English
Flow matching models (FMs) have revolutionized text-to-image (T2I) generation, with reinforcement learning (RL) serving as a critical post-training strategy for alignment with reward objectives. In this research, we show that current RL pipelines for FMs suffer from two underappreciated yet important limitations: sample inefficiency due to insufficient generation diversity, and pronounced prompt overfitting, where models memorize specific training formulations and exhibit dramatic performance collapse when evaluated on semantically equivalent but stylistically varied prompts. We present PromptRL (Prompt Matters in RL for Flow-Based Image Generation), a framework that incorporates language models (LMs) as trainable prompt refinement agents directly within the flow-based RL optimization loop. This design yields two complementary benefits: rapid development of sophisticated prompt rewriting capabilities and, critically, a synergistic training regime that reshapes the optimization dynamics. PromptRL achieves state-of-the-art performance across multiple benchmarks, obtaining scores of 0.97 on GenEval, 0.98 on OCR accuracy, and 24.05 on PickScore.
Furthermore, we validate the effectiveness of our RL approach on large-scale image editing models, improving the EditReward of FLUX.1-Kontext from 1.19 to 1.43 with only 0.06 million rollouts, surpassing Gemini 2.5 Flash Image (also known as Nano Banana), which scores 1.37, and achieving comparable performance with ReasonNet (1.44), which relied on fine-grained data annotations along with a complex multi-stage training. Our extensive experiments empirically demonstrate that PromptRL consistently achieves higher performance ceilings while requiring over 2times fewer rollouts compared to naive flow-only RL. Our code is available at https://github.com/G-U-N/UniRL.