PromptRL: フローベース画像生成におけるRLのプロンプト重要性
PromptRL: Prompt Matters in RL for Flow-Based Image Generation
February 1, 2026
著者: Fu-Yun Wang, Han Zhang, Michael Gharbi, Hongsheng Li, Taesung Park
cs.AI
要旨
Flow matchingモデル(FM)はテキストから画像への生成(T2I)において革命をもたらし、強化学習(RL)は報酬目標との整合性を図る重要な学習後戦略として機能している。本研究では、FM向けの現在のRLパイプラインが、十分に評価されていないながらも重要な2つの限界、すなわち生成多様性の不足に起因するサンプル非効率性と、顕著なプロンプト過学習(モデルが特定の訓練用プロンプト表現を記憶し、意味的に等価だが文体的に異なるプロンプトで評価すると性能が劇的に低下する現象)に悩まされていることを示す。我々はPromptRL(フローベース画像生成のためのRLにおけるプロンプトの重要性)を提案する。これは、言語モデル(LM)を訓練可能なプロンプト改良エージェントとして、フローベースのRL最適化ループ内に直接組み込むフレームワークである。この設計は、洗練されたプロンプト書き換え能力の迅速な開発と、より重要な点として、最適化ダイナミクスを再形成する相乗的な訓練体制という、2つの相補的利点をもたらす。PromptRLは複数のベンチマークでState-of-the-Art性能を達成し、GenEvalで0.97、OCR精度で0.98、PickScoreで24.05のスコアを獲得した。
さらに、我々のRLアプローチの有効性を大規模画像編集モデルにおいて検証し、FLUX.1-KontextのEditRewardを僅か6万回のロールアウトで1.19から1.43に改善した。これは1.37のスコアを持つGemini 2.5 Flash Image(別名Nano Banana)を上回り、微細なデータアノテーションと複雑な多段階訓練に依存するReasonNet(1.44)と同等の性能を達成している。我々の大規模な実験は、PromptRLが、単純なフローモデルのみのRLと比較して、2倍以上少ないロールアウト数で、一貫して高い性能上限を達成することを実証的に示している。コードはhttps://github.com/G-U-N/UniRL で公開されている。
English
Flow matching models (FMs) have revolutionized text-to-image (T2I) generation, with reinforcement learning (RL) serving as a critical post-training strategy for alignment with reward objectives. In this research, we show that current RL pipelines for FMs suffer from two underappreciated yet important limitations: sample inefficiency due to insufficient generation diversity, and pronounced prompt overfitting, where models memorize specific training formulations and exhibit dramatic performance collapse when evaluated on semantically equivalent but stylistically varied prompts. We present PromptRL (Prompt Matters in RL for Flow-Based Image Generation), a framework that incorporates language models (LMs) as trainable prompt refinement agents directly within the flow-based RL optimization loop. This design yields two complementary benefits: rapid development of sophisticated prompt rewriting capabilities and, critically, a synergistic training regime that reshapes the optimization dynamics. PromptRL achieves state-of-the-art performance across multiple benchmarks, obtaining scores of 0.97 on GenEval, 0.98 on OCR accuracy, and 24.05 on PickScore.
Furthermore, we validate the effectiveness of our RL approach on large-scale image editing models, improving the EditReward of FLUX.1-Kontext from 1.19 to 1.43 with only 0.06 million rollouts, surpassing Gemini 2.5 Flash Image (also known as Nano Banana), which scores 1.37, and achieving comparable performance with ReasonNet (1.44), which relied on fine-grained data annotations along with a complex multi-stage training. Our extensive experiments empirically demonstrate that PromptRL consistently achieves higher performance ceilings while requiring over 2times fewer rollouts compared to naive flow-only RL. Our code is available at https://github.com/G-U-N/UniRL.