PromptRL : L'importance du prompt dans l'apprentissage par renforcement pour la génération d'images par flux
PromptRL: Prompt Matters in RL for Flow-Based Image Generation
February 1, 2026
papers.authors: Fu-Yun Wang, Han Zhang, Michael Gharbi, Hongsheng Li, Taesung Park
cs.AI
papers.abstract
Les modèles de flow matching (FM) ont révolutionné la génération texte-image (T2I), l'apprentissage par renforcement (RL) constituant une stratégie d'après-entraînement cruciale pour l'alignement sur des objectifs de récompense. Dans cette recherche, nous montrons que les pipelines RL actuels pour les FM souffrent de deux limitations sous-estimées mais importantes : une inefficacité d'échantillonnage due à une diversité de génération insuffisante, et un sur-apprentissage prononcé aux prompts, où les modèles mémorisent des formulations d'entraînement spécifiques et subissent un effondrement dramatique des performances lorsqu'ils sont évalués sur des prompts sémantiquement équivalents mais stylistiquement variés. Nous présentons PromptRL (Prompt Matters in RL for Flow-Based Image Generation), un cadre qui intègre des modèles de langage (LM) en tant qu'agents d'affinement de prompts entraînables directement dans la boucle d'optimisation RL basée sur les flows. Cette conception offre deux avantages complémentaires : le développement rapide de capacités sophistiquées de réécriture de prompts et, surtout, un régime d'entraînement synergique qui remodelle la dynamique d'optimisation. PromptRL atteint des performances de pointe sur plusieurs benchmarks, obtenant des scores de 0,97 sur GenEval, 0,98 sur la précision OCR et 24,05 sur PickScore.
De plus, nous validons l'efficacité de notre approche RL sur des modèles d'édition d'image à grande échelle, améliorant l'EditReward de FLUX.1-Kontext de 1,19 à 1,43 avec seulement 0,06 million de rollouts, surpassant Gemini 2.5 Flash Image (également connu sous le nom de Nano Banana), qui obtient 1,37, et atteignant des performances comparables à ReasonNet (1,44), lequel reposait sur des annotations de données fines et un entraînement multi-étapes complexe. Nos expériences approfondies démontrent empiriquement que PromptRL atteint systématiquement des plafonds de performance plus élevés tout en nécessitant plus de 2 fois moins de rollouts qu'une approche RL naïve basée uniquement sur les flows. Notre code est disponible à l'adresse https://github.com/G-U-N/UniRL.
English
Flow matching models (FMs) have revolutionized text-to-image (T2I) generation, with reinforcement learning (RL) serving as a critical post-training strategy for alignment with reward objectives. In this research, we show that current RL pipelines for FMs suffer from two underappreciated yet important limitations: sample inefficiency due to insufficient generation diversity, and pronounced prompt overfitting, where models memorize specific training formulations and exhibit dramatic performance collapse when evaluated on semantically equivalent but stylistically varied prompts. We present PromptRL (Prompt Matters in RL for Flow-Based Image Generation), a framework that incorporates language models (LMs) as trainable prompt refinement agents directly within the flow-based RL optimization loop. This design yields two complementary benefits: rapid development of sophisticated prompt rewriting capabilities and, critically, a synergistic training regime that reshapes the optimization dynamics. PromptRL achieves state-of-the-art performance across multiple benchmarks, obtaining scores of 0.97 on GenEval, 0.98 on OCR accuracy, and 24.05 on PickScore.
Furthermore, we validate the effectiveness of our RL approach on large-scale image editing models, improving the EditReward of FLUX.1-Kontext from 1.19 to 1.43 with only 0.06 million rollouts, surpassing Gemini 2.5 Flash Image (also known as Nano Banana), which scores 1.37, and achieving comparable performance with ReasonNet (1.44), which relied on fine-grained data annotations along with a complex multi-stage training. Our extensive experiments empirically demonstrate that PromptRL consistently achieves higher performance ceilings while requiring over 2times fewer rollouts compared to naive flow-only RL. Our code is available at https://github.com/G-U-N/UniRL.