ChatPaper.aiChatPaper

PromptRL: 유량 기반 이미지 생성에서 프롬프트가 중요한 강화학습 접근법

PromptRL: Prompt Matters in RL for Flow-Based Image Generation

February 1, 2026
저자: Fu-Yun Wang, Han Zhang, Michael Gharbi, Hongsheng Li, Taesung Park
cs.AI

초록

플로우 매칭 모델(FMs)은 텍스트-이미지(T2I) 생성 분야에 혁명을 가져왔으며, 강화 학습(RL)은 보상 목표와의 정렬을 위한 핵심 사후 학습 전략으로 자리 잡았습니다. 본 연구에서는 FM용 기존 RL 파이프라인이 충분히 주목받지 못한 두 가지 중요한 한계, 즉 생성 다양성 부족으로 인한 샘플 비효율성과 모델이 특정 훈련용 프롬프트 형식을 암기하여 의미적으로 동등하지만 스타일리시하게 변형된 프롬프트에서 평가 시 극심한 성능 저하를 보이는 현저한 프롬프트 과적합을 겪고 있음을 보여줍니다. 우리는 플로우 기반 RL 최적화 루프 내에서 언어 모델(LMs)을 훈련 가능한 프롬프트 정제 에이전트로 직접 통합하는 프레임워크인 PromptRL(플로우 기반 이미지 생성을 위한 RL에서 중요한 프롬프트)을 제시합니다. 이 설계는 정교한 프롬프트 재작성 능력의 빠른 발전과, 무엇보다도 최적화 역학을 재구성하는 시너지 효과적인 훈련 체계라는 두 가지 상호 보완적인 이점을 제공합니다. PromptRL은 여러 벤치마크에서 최첨단 성능을 달성하여 GenEval에서 0.97, OCR 정확도에서 0.98, PickScore에서 24.05점을 획득했습니다. 또한, 우리는 대규모 이미지 편집 모델에 대한 우리의 RL 접근법의 효과성을 검증하여 FLUX.1-Kontext의 EditReward를 단 0.06백만 번의 롤아웃으로 1.19에서 1.43으로 향상시켰습니다. 이는 1.37점을 기록한 Gemini 2.5 Flash Image(일명 Nano Banana)를 능가하고, 세분화된 데이터 주석과 복잡한 다단계 훈련에 의존하는 ReasonNet(1.44)과 비슷한 성능을 달성했습니다. 우리의 광범위한 실험은 PromptRL이 순수 플로우만 사용한 RL 대비 2배 이상 적은 롤아웃을 요구하면서도 일관되게 더 높은 성능 한계에 도달함을 경험적으로 입증합니다. 우리의 코드는 https://github.com/G-U-N/UniRL에서 확인할 수 있습니다.
English
Flow matching models (FMs) have revolutionized text-to-image (T2I) generation, with reinforcement learning (RL) serving as a critical post-training strategy for alignment with reward objectives. In this research, we show that current RL pipelines for FMs suffer from two underappreciated yet important limitations: sample inefficiency due to insufficient generation diversity, and pronounced prompt overfitting, where models memorize specific training formulations and exhibit dramatic performance collapse when evaluated on semantically equivalent but stylistically varied prompts. We present PromptRL (Prompt Matters in RL for Flow-Based Image Generation), a framework that incorporates language models (LMs) as trainable prompt refinement agents directly within the flow-based RL optimization loop. This design yields two complementary benefits: rapid development of sophisticated prompt rewriting capabilities and, critically, a synergistic training regime that reshapes the optimization dynamics. PromptRL achieves state-of-the-art performance across multiple benchmarks, obtaining scores of 0.97 on GenEval, 0.98 on OCR accuracy, and 24.05 on PickScore. Furthermore, we validate the effectiveness of our RL approach on large-scale image editing models, improving the EditReward of FLUX.1-Kontext from 1.19 to 1.43 with only 0.06 million rollouts, surpassing Gemini 2.5 Flash Image (also known as Nano Banana), which scores 1.37, and achieving comparable performance with ReasonNet (1.44), which relied on fine-grained data annotations along with a complex multi-stage training. Our extensive experiments empirically demonstrate that PromptRL consistently achieves higher performance ceilings while requiring over 2times fewer rollouts compared to naive flow-only RL. Our code is available at https://github.com/G-U-N/UniRL.
PDF82February 7, 2026