ChatPaper.aiChatPaper

PromptRL: La importancia del prompt en el aprendizaje por refuerzo para la generación de imágenes basada en flujos

PromptRL: Prompt Matters in RL for Flow-Based Image Generation

February 1, 2026
Autores: Fu-Yun Wang, Han Zhang, Michael Gharbi, Hongsheng Li, Taesung Park
cs.AI

Resumen

Los modelos de emparejamiento de flujo (FMs) han revolucionado la generación de texto a imagen (T2I), donde el aprendizaje por refuerzo (RL) sirve como una estrategia crítica de post-entrenamiento para la alineación con objetivos de recompensa. En esta investigación, demostramos que los pipelines de RL actuales para FMs adolecen de dos limitaciones importantes pero subestimadas: la ineficiencia muestral debido a una diversidad de generación insuficiente y un marcado sobreajuste al prompt, donde los modelos memorizan formulaciones específicas de entrenamiento y exhiben un colapso drástico del rendimiento cuando se evalúan con prompts semánticamente equivalentes pero estilísticamente variados. Presentamos PromptRL (La Importancia del Prompt en el RL para la Generación de Imágenes Basada en Flujo), un marco que incorpora modelos de lenguaje (LMs) como agentes entrenables de refinamiento de prompts directamente dentro del bucle de optimización de RL basado en flujo. Este diseño produce dos beneficios complementarios: el desarrollo rápido de capacidades sofisticadas de reescritura de prompts y, críticamente, un régimen de entrenamiento sinérgico que remodela la dinámica de optimización. PromptRL logra un rendimiento de vanguardia en múltiples benchmarks, obteniendo puntuaciones de 0.97 en GenEval, 0.98 en precisión de OCR y 24.05 en PickScore. Además, validamos la efectividad de nuestro enfoque de RL en modelos de edición de imagen a gran escala, mejorando el EditReward de FLUX.1-Kontext de 1.19 a 1.43 con solo 0.06 millones de rollouts, superando a Gemini 2.5 Flash Image (también conocido como Nano Banana), que obtiene 1.37, y alcanzando un rendimiento comparable con ReasonNet (1.44), el cual dependió de anotaciones de datos de grano fino junto con un entrenamiento multi-etapa complejo. Nuestros extensos experimentos demuestran empíricamente que PromptRL consigue consistentemente techos de rendimiento más altos mientras requiere más de 2 veces menos rollouts en comparación con el RL ingenuo basado únicamente en flujo. Nuestro código está disponible en https://github.com/G-U-N/UniRL.
English
Flow matching models (FMs) have revolutionized text-to-image (T2I) generation, with reinforcement learning (RL) serving as a critical post-training strategy for alignment with reward objectives. In this research, we show that current RL pipelines for FMs suffer from two underappreciated yet important limitations: sample inefficiency due to insufficient generation diversity, and pronounced prompt overfitting, where models memorize specific training formulations and exhibit dramatic performance collapse when evaluated on semantically equivalent but stylistically varied prompts. We present PromptRL (Prompt Matters in RL for Flow-Based Image Generation), a framework that incorporates language models (LMs) as trainable prompt refinement agents directly within the flow-based RL optimization loop. This design yields two complementary benefits: rapid development of sophisticated prompt rewriting capabilities and, critically, a synergistic training regime that reshapes the optimization dynamics. PromptRL achieves state-of-the-art performance across multiple benchmarks, obtaining scores of 0.97 on GenEval, 0.98 on OCR accuracy, and 24.05 on PickScore. Furthermore, we validate the effectiveness of our RL approach on large-scale image editing models, improving the EditReward of FLUX.1-Kontext from 1.19 to 1.43 with only 0.06 million rollouts, surpassing Gemini 2.5 Flash Image (also known as Nano Banana), which scores 1.37, and achieving comparable performance with ReasonNet (1.44), which relied on fine-grained data annotations along with a complex multi-stage training. Our extensive experiments empirically demonstrate that PromptRL consistently achieves higher performance ceilings while requiring over 2times fewer rollouts compared to naive flow-only RL. Our code is available at https://github.com/G-U-N/UniRL.
PDF82February 7, 2026