Pref-GRPO: Paarsgewijze voorkeursbeloning-gebaseerde GRPO voor stabiele tekst-naar-beeld versterkend leren
Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning
August 28, 2025
Auteurs: Yibin Wang, Zhimin Li, Yuhang Zang, Yujie Zhou, Jiazi Bu, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang
cs.AI
Samenvatting
Recente ontwikkelingen benadrukken het belang van GRPO-gebaseerde reinforcement learning-methoden en benchmarking bij het verbeteren van tekst-naar-beeld (T2I) generatie. Huidige methoden die gebruikmaken van puntgewijze beloningsmodellen (RM) voor het scoren van gegenereerde beelden zijn echter vatbaar voor beloningsmanipulatie. Wij tonen aan dat dit gebeurt wanneer minimale scoreverschillen tussen beelden worden versterkt na normalisatie, wat illusoire voordelen creëert die het model ertoe aanzetten om te overoptimaliseren voor triviale winsten, wat uiteindelijk het beeldgeneratieproces destabiliseert. Om dit aan te pakken, stellen we Pref-GRPO voor, een paarsgewijze voorkeursbeloningsgebaseerde GRPO-methode die het optimalisatiedoel verschuift van scoremaximalisatie naar voorkeursafstemming, wat zorgt voor een stabielere training. In Pref-GRPO worden beelden paarsgewijs vergeleken binnen elke groep met behulp van voorkeurs-RM, en de winratio wordt gebruikt als het beloningssignaal. Uitgebreide experimenten tonen aan dat Pref-GRPO subtiele beeldkwaliteitsverschillen onderscheidt, wat zorgt voor stabielere voordelen en beloningsmanipulatie vermindert. Daarnaast worden bestaande T2I-benchmarks beperkt door grove evaluatiecriteria, wat een uitgebreide modelbeoordeling belemmert. Om dit op te lossen, introduceren we UniGenBench, een geünificeerde T2I-benchmark bestaande uit 600 prompts verdeeld over 5 hoofdthema's en 20 subthema's. Het evalueert semantische consistentie via 10 primaire en 27 subcriteria, waarbij gebruik wordt gemaakt van MLLM voor de constructie en evaluatie van de benchmark. Onze benchmarks onthullen de sterke en zwakke punten van zowel open-source als closed-source T2I-modellen en valideren de effectiviteit van Pref-GRPO.
English
Recent advancements highlight the importance of GRPO-based reinforcement
learning methods and benchmarking in enhancing text-to-image (T2I) generation.
However, current methods using pointwise reward models (RM) for scoring
generated images are susceptible to reward hacking. We reveal that this happens
when minimal score differences between images are amplified after
normalization, creating illusory advantages that drive the model to
over-optimize for trivial gains, ultimately destabilizing the image generation
process. To address this, we propose Pref-GRPO, a pairwise preference
reward-based GRPO method that shifts the optimization objective from score
maximization to preference fitting, ensuring more stable training. In
Pref-GRPO, images are pairwise compared within each group using preference RM,
and the win rate is used as the reward signal. Extensive experiments
demonstrate that PREF-GRPO differentiates subtle image quality differences,
providing more stable advantages and mitigating reward hacking. Additionally,
existing T2I benchmarks are limited by coarse evaluation criteria, hindering
comprehensive model assessment. To solve this, we introduce UniGenBench, a
unified T2I benchmark comprising 600 prompts across 5 main themes and 20
subthemes. It evaluates semantic consistency through 10 primary and 27
sub-criteria, leveraging MLLM for benchmark construction and evaluation. Our
benchmarks uncover the strengths and weaknesses of both open and closed-source
T2I models and validate the effectiveness of Pref-GRPO.