Pref-GRPO : GRPO basé sur la récompense par préférence par paire pour un apprentissage par renforcement stable en génération d'images à partir de texte
Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning
August 28, 2025
papers.authors: Yibin Wang, Zhimin Li, Yuhang Zang, Yujie Zhou, Jiazi Bu, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang
cs.AI
papers.abstract
Les avancées récentes mettent en lumière l'importance des méthodes d'apprentissage par renforcement basées sur GRPO et des benchmarks pour améliorer la génération texte-image (T2I). Cependant, les méthodes actuelles utilisant des modèles de récompense (RM) ponctuels pour évaluer les images générées sont vulnérables au détournement de récompense. Nous révélons que cela se produit lorsque des différences minimales de score entre les images sont amplifiées après normalisation, créant des avantages illusoires qui poussent le modèle à sur-optimiser pour des gains triviaux, déstabilisant finalement le processus de génération d'images. Pour résoudre ce problème, nous proposons Pref-GRPO, une méthode GRPO basée sur des récompenses de préférence par paires, qui déplace l'objectif d'optimisation de la maximisation des scores vers l'ajustement des préférences, assurant un entraînement plus stable. Dans Pref-GRPO, les images sont comparées par paires au sein de chaque groupe à l'aide d'un RM de préférence, et le taux de victoire est utilisé comme signal de récompense. Des expériences approfondies démontrent que Pref-GRPO différencie les subtiles différences de qualité d'image, offrant des avantages plus stables et atténuant le détournement de récompense. De plus, les benchmarks T2I existants sont limités par des critères d'évaluation grossiers, entravant une évaluation complète des modèles. Pour résoudre ce problème, nous introduisons UniGenBench, un benchmark T2I unifié comprenant 600 prompts répartis en 5 thèmes principaux et 20 sous-thèmes. Il évalue la cohérence sémantique à travers 10 critères principaux et 27 sous-critères, en s'appuyant sur MLLM pour la construction et l'évaluation du benchmark. Nos benchmarks révèlent les forces et les faiblesses des modèles T2I open-source et propriétaires, et valident l'efficacité de Pref-GRPO.
English
Recent advancements highlight the importance of GRPO-based reinforcement
learning methods and benchmarking in enhancing text-to-image (T2I) generation.
However, current methods using pointwise reward models (RM) for scoring
generated images are susceptible to reward hacking. We reveal that this happens
when minimal score differences between images are amplified after
normalization, creating illusory advantages that drive the model to
over-optimize for trivial gains, ultimately destabilizing the image generation
process. To address this, we propose Pref-GRPO, a pairwise preference
reward-based GRPO method that shifts the optimization objective from score
maximization to preference fitting, ensuring more stable training. In
Pref-GRPO, images are pairwise compared within each group using preference RM,
and the win rate is used as the reward signal. Extensive experiments
demonstrate that PREF-GRPO differentiates subtle image quality differences,
providing more stable advantages and mitigating reward hacking. Additionally,
existing T2I benchmarks are limited by coarse evaluation criteria, hindering
comprehensive model assessment. To solve this, we introduce UniGenBench, a
unified T2I benchmark comprising 600 prompts across 5 main themes and 20
subthemes. It evaluates semantic consistency through 10 primary and 27
sub-criteria, leveraging MLLM for benchmark construction and evaluation. Our
benchmarks uncover the strengths and weaknesses of both open and closed-source
T2I models and validate the effectiveness of Pref-GRPO.