Pref-GRPO: GRPO Basato su Ricompensa di Preferenze a Coppie per un Apprendimento per Rinforzo Stabile nel Text-to-Image
Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning
August 28, 2025
Autori: Yibin Wang, Zhimin Li, Yuhang Zang, Yujie Zhou, Jiazi Bu, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang
cs.AI
Abstract
I recenti progressi evidenziano l'importanza dei metodi di apprendimento per rinforzo basati su GRPO e del benchmarking nel migliorare la generazione da testo a immagine (T2I). Tuttavia, i metodi attuali che utilizzano modelli di ricompensa (RM) puntuali per valutare le immagini generate sono suscettibili al fenomeno del reward hacking. Riveliamo che ciò accade quando le differenze minime di punteggio tra le immagini vengono amplificate dopo la normalizzazione, creando vantaggi illusori che spingono il modello a ottimizzare eccessivamente per guadagni banali, destabilizzando infine il processo di generazione delle immagini. Per affrontare questo problema, proponiamo Pref-GRPO, un metodo GRPO basato su ricompensa per preferenze pairwise che sposta l'obiettivo di ottimizzazione dalla massimizzazione del punteggio all'adattamento delle preferenze, garantendo un addestramento più stabile. In Pref-GRPO, le immagini vengono confrontate pairwise all'interno di ciascun gruppo utilizzando un RM di preferenza, e il tasso di vittoria viene utilizzato come segnale di ricompensa. Esperimenti estensivi dimostrano che PREF-GRPO differenzia le sottili differenze di qualità delle immagini, fornendo vantaggi più stabili e mitigando il reward hacking. Inoltre, i benchmark T2I esistenti sono limitati da criteri di valutazione grossolani, ostacolando una valutazione completa del modello. Per risolvere questo problema, introduciamo UniGenBench, un benchmark T2I unificato che comprende 600 prompt suddivisi in 5 temi principali e 20 sottotemi. Valuta la coerenza semantica attraverso 10 criteri primari e 27 sub-criteri, sfruttando MLLM per la costruzione e la valutazione del benchmark. I nostri benchmark rivelano i punti di forza e di debolezza sia dei modelli T2I open-source che di quelli closed-source e convalidano l'efficacia di Pref-GRPO.
English
Recent advancements highlight the importance of GRPO-based reinforcement
learning methods and benchmarking in enhancing text-to-image (T2I) generation.
However, current methods using pointwise reward models (RM) for scoring
generated images are susceptible to reward hacking. We reveal that this happens
when minimal score differences between images are amplified after
normalization, creating illusory advantages that drive the model to
over-optimize for trivial gains, ultimately destabilizing the image generation
process. To address this, we propose Pref-GRPO, a pairwise preference
reward-based GRPO method that shifts the optimization objective from score
maximization to preference fitting, ensuring more stable training. In
Pref-GRPO, images are pairwise compared within each group using preference RM,
and the win rate is used as the reward signal. Extensive experiments
demonstrate that PREF-GRPO differentiates subtle image quality differences,
providing more stable advantages and mitigating reward hacking. Additionally,
existing T2I benchmarks are limited by coarse evaluation criteria, hindering
comprehensive model assessment. To solve this, we introduce UniGenBench, a
unified T2I benchmark comprising 600 prompts across 5 main themes and 20
subthemes. It evaluates semantic consistency through 10 primary and 27
sub-criteria, leveraging MLLM for benchmark construction and evaluation. Our
benchmarks uncover the strengths and weaknesses of both open and closed-source
T2I models and validate the effectiveness of Pref-GRPO.