PromptRL: O Prompt é Crucial no RL para Geração de Imagens Baseada em Fluxo

Resumo

Os modelos de fluxo (Flow Matching - FMs) revolucionaram a geração de texto para imagem (T2I), com o aprendizado por reforço (RL) servindo como uma estratégia crítica de pós-treinamento para alinhamento com objetivos de recompensa. Nesta pesquisa, mostramos que os *pipelines* atuais de RL para FMs sofrem de duas limitações importantes, porém subestimadas: ineficiência na amostragem devido à diversidade de geração insuficiente e *overfitting* acentuado a *prompts*, onde os modelos memorizam formulações específicas de treinamento e exibem um colapso drástico de desempenho quando avaliados em *prompts* semanticamente equivalentes, mas com variações estilísticas. Apresentamos o PromptRL (*Prompt Matters in RL for Flow-Based Image Generation*), um *framework* que incorpora modelos de linguagem (LMs) como agentes de refinamento de *prompt* treináveis diretamente dentro do ciclo de otimização de RL baseado em fluxo. Este projeto gera dois benefícios complementares: o desenvolvimento rápido de capacidades sofisticadas de reescrita de *prompts* e, criticamente, um regime de treinamento sinérgico que remodela a dinâmica de otimização. O PromptRL alcança desempenho de última geração em vários *benchmarks*, obtendo pontuações de 0,97 no GenEval, 0,98 na precisão de OCR e 24,05 no PickScore. Além disso, validamos a eficácia da nossa abordagem de RL em modelos de edição de imagem em larga escala, melhorando o EditReward do FLUX.1-Kontext de 1,19 para 1,43 com apenas 0,06 milhões de *rollouts*, superando o Gemini 2.5 Flash Image (também conhecido como Nano Banana), que marca 1,37, e alcançando desempenho comparável ao ReasonNet (1,44), que dependeu de anotações de dados refinadas juntamente com um treinamento complexo em múltiplos estágios. Nossos extensos experimentos demonstram empiricamente que o PromptRL alcança consistentemente tetos de desempenho mais altos, exigindo mais de 2 vezes menos *rollouts* em comparação com o RL ingênuo baseado apenas em fluxo. Nosso código está disponível em https://github.com/G-U-N/UniRL.

English

Flow matching models (FMs) have revolutionized text-to-image (T2I) generation, with reinforcement learning (RL) serving as a critical post-training strategy for alignment with reward objectives. In this research, we show that current RL pipelines for FMs suffer from two underappreciated yet important limitations: sample inefficiency due to insufficient generation diversity, and pronounced prompt overfitting, where models memorize specific training formulations and exhibit dramatic performance collapse when evaluated on semantically equivalent but stylistically varied prompts. We present PromptRL (Prompt Matters in RL for Flow-Based Image Generation), a framework that incorporates language models (LMs) as trainable prompt refinement agents directly within the flow-based RL optimization loop. This design yields two complementary benefits: rapid development of sophisticated prompt rewriting capabilities and, critically, a synergistic training regime that reshapes the optimization dynamics. PromptRL achieves state-of-the-art performance across multiple benchmarks, obtaining scores of 0.97 on GenEval, 0.98 on OCR accuracy, and 24.05 on PickScore. Furthermore, we validate the effectiveness of our RL approach on large-scale image editing models, improving the EditReward of FLUX.1-Kontext from 1.19 to 1.43 with only 0.06 million rollouts, surpassing Gemini 2.5 Flash Image (also known as Nano Banana), which scores 1.37, and achieving comparable performance with ReasonNet (1.44), which relied on fine-grained data annotations along with a complex multi-stage training. Our extensive experiments empirically demonstrate that PromptRL consistently achieves higher performance ceilings while requiring over 2times fewer rollouts compared to naive flow-only RL. Our code is available at https://github.com/G-U-N/UniRL.

PromptRL: O Prompt é Crucial no RL para Geração de Imagens Baseada em Fluxo

PromptRL: Prompt Matters in RL for Flow-Based Image Generation

Resumo

Support