PromptRL: L'importanza del Prompt nell'Apprendimento per Rinforzo per la Generazione di Immagini basata su Flussi
PromptRL: Prompt Matters in RL for Flow-Based Image Generation
February 1, 2026
Autori: Fu-Yun Wang, Han Zhang, Michael Gharbi, Hongsheng Li, Taesung Park
cs.AI
Abstract
I modelli di flow matching (FM) hanno rivoluzionato la generazione testo-immagine (T2I), con l'apprendimento per rinforzo (RL) che funge da strategia critica di post-addestramento per l'allineamento con gli obiettivi di reward. In questa ricerca, dimostriamo che le pipeline RL attuali per gli FM soffrono di due limitazioni sottovalutate ma importanti: l'inefficienza nel campionamento dovuta a un' insufficiente diversità generativa e un marcato overfitting sugli prompt, in cui i modelli memorizzano formulazioni specifiche di addestramento e mostrano un crollo drammatico delle prestazioni quando valutati su prompt semanticamente equivalenti ma stilisticamente variati. Presentiamo PromptRL (Prompt Matters in RL for Flow-Based Image Generation), un framework che incorpora modelli linguistici (LM) come agenti addestrabili per l'affinamento degli prompt direttamente all'interno del ciclo di ottimizzazione RL basato su flow. Questo progetto offre due vantaggi complementari: lo sviluppo rapido di capacità sofisticate di riscrittura degli prompt e, in modo cruciale, un regime di addestramento sinergico che rimodella le dinamiche di ottimizzazione. PromptRL raggiunge prestazioni allo stato dell'arte su molteplici benchmark, ottenendo punteggi di 0.97 su GenEval, 0.98 sull'accuratezza OCR e 24.05 su PickScore.
Inoltre, convalidiamo l'efficacia del nostro approccio RL su modelli di editing di immagini su larga scala, migliorando l'EditReward di FLUX.1-Kontext da 1.19 a 1.43 con soli 0.06 milioni di rollout, superando Gemini 2.5 Flash Image (noto anche come Nano Banana), che totalizza 1.37, e raggiungendo prestazioni comparabili con ReasonNet (1.44), che si è basato su annotazioni dati granulari insieme a un complesso addestramento multi-stadio. I nostri esperimenti estensivi dimostrano empiricamente che PromptRL raggiunge costantemente limiti prestazionali più elevati richiedendo oltre 2 volte meno rollout rispetto a un approccio RL naive basato solo sul flow. Il nostro codice è disponibile all'indirizzo https://github.com/G-U-N/UniRL.
English
Flow matching models (FMs) have revolutionized text-to-image (T2I) generation, with reinforcement learning (RL) serving as a critical post-training strategy for alignment with reward objectives. In this research, we show that current RL pipelines for FMs suffer from two underappreciated yet important limitations: sample inefficiency due to insufficient generation diversity, and pronounced prompt overfitting, where models memorize specific training formulations and exhibit dramatic performance collapse when evaluated on semantically equivalent but stylistically varied prompts. We present PromptRL (Prompt Matters in RL for Flow-Based Image Generation), a framework that incorporates language models (LMs) as trainable prompt refinement agents directly within the flow-based RL optimization loop. This design yields two complementary benefits: rapid development of sophisticated prompt rewriting capabilities and, critically, a synergistic training regime that reshapes the optimization dynamics. PromptRL achieves state-of-the-art performance across multiple benchmarks, obtaining scores of 0.97 on GenEval, 0.98 on OCR accuracy, and 24.05 on PickScore.
Furthermore, we validate the effectiveness of our RL approach on large-scale image editing models, improving the EditReward of FLUX.1-Kontext from 1.19 to 1.43 with only 0.06 million rollouts, surpassing Gemini 2.5 Flash Image (also known as Nano Banana), which scores 1.37, and achieving comparable performance with ReasonNet (1.44), which relied on fine-grained data annotations along with a complex multi-stage training. Our extensive experiments empirically demonstrate that PromptRL consistently achieves higher performance ceilings while requiring over 2times fewer rollouts compared to naive flow-only RL. Our code is available at https://github.com/G-U-N/UniRL.