Pref-GRPO: GRPO basado en recompensas de preferencias por pares para el aprendizaje por refuerzo estable en generación de texto a imagen
Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning
August 28, 2025
Autores: Yibin Wang, Zhimin Li, Yuhang Zang, Yujie Zhou, Jiazi Bu, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang
cs.AI
Resumen
Los avances recientes destacan la importancia de los métodos de aprendizaje por refuerzo basados en GRPO y la evaluación comparativa para mejorar la generación de texto a imagen (T2I). Sin embargo, los métodos actuales que utilizan modelos de recompensa puntual (RM) para puntuar imágenes generadas son susceptibles al "hackeo de recompensas". Revelamos que esto ocurre cuando las diferencias mínimas de puntuación entre imágenes se amplifican después de la normalización, creando ventajas ilusorias que llevan al modelo a sobreoptimizar ganancias triviales, lo que finalmente desestabiliza el proceso de generación de imágenes. Para abordar esto, proponemos Pref-GRPO, un método GRPO basado en recompensas de preferencias por pares que cambia el objetivo de optimización de la maximización de puntuación al ajuste de preferencias, asegurando un entrenamiento más estable. En Pref-GRPO, las imágenes se comparan por pares dentro de cada grupo utilizando un RM de preferencias, y la tasa de victoria se utiliza como señal de recompensa. Experimentos extensos demuestran que Pref-GRPO diferencia sutiles diferencias en la calidad de las imágenes, proporcionando ventajas más estables y mitigando el hackeo de recompensas. Además, los benchmarks T2I existentes están limitados por criterios de evaluación poco detallados, lo que dificulta una evaluación integral de los modelos. Para resolver esto, presentamos UniGenBench, un benchmark T2I unificado que comprende 600 indicaciones (prompts) en 5 temas principales y 20 subtemas. Evalúa la consistencia semántica a través de 10 criterios principales y 27 subcriterios, aprovechando MLLM para la construcción y evaluación del benchmark. Nuestros benchmarks revelan las fortalezas y debilidades de los modelos T2I tanto de código abierto como cerrado y validan la efectividad de Pref-GRPO.
English
Recent advancements highlight the importance of GRPO-based reinforcement
learning methods and benchmarking in enhancing text-to-image (T2I) generation.
However, current methods using pointwise reward models (RM) for scoring
generated images are susceptible to reward hacking. We reveal that this happens
when minimal score differences between images are amplified after
normalization, creating illusory advantages that drive the model to
over-optimize for trivial gains, ultimately destabilizing the image generation
process. To address this, we propose Pref-GRPO, a pairwise preference
reward-based GRPO method that shifts the optimization objective from score
maximization to preference fitting, ensuring more stable training. In
Pref-GRPO, images are pairwise compared within each group using preference RM,
and the win rate is used as the reward signal. Extensive experiments
demonstrate that PREF-GRPO differentiates subtle image quality differences,
providing more stable advantages and mitigating reward hacking. Additionally,
existing T2I benchmarks are limited by coarse evaluation criteria, hindering
comprehensive model assessment. To solve this, we introduce UniGenBench, a
unified T2I benchmark comprising 600 prompts across 5 main themes and 20
subthemes. It evaluates semantic consistency through 10 primary and 27
sub-criteria, leveraging MLLM for benchmark construction and evaluation. Our
benchmarks uncover the strengths and weaknesses of both open and closed-source
T2I models and validate the effectiveness of Pref-GRPO.