Pref-GRPO : GRPO basé sur la récompense par préférence par paire pour un apprentissage par renforcement stable en génération d'images à partir de texte

papers.abstract

Les avancées récentes mettent en lumière l'importance des méthodes d'apprentissage par renforcement basées sur GRPO et des benchmarks pour améliorer la génération texte-image (T2I). Cependant, les méthodes actuelles utilisant des modèles de récompense (RM) ponctuels pour évaluer les images générées sont vulnérables au détournement de récompense. Nous révélons que cela se produit lorsque des différences minimales de score entre les images sont amplifiées après normalisation, créant des avantages illusoires qui poussent le modèle à sur-optimiser pour des gains triviaux, déstabilisant finalement le processus de génération d'images. Pour résoudre ce problème, nous proposons Pref-GRPO, une méthode GRPO basée sur des récompenses de préférence par paires, qui déplace l'objectif d'optimisation de la maximisation des scores vers l'ajustement des préférences, assurant un entraînement plus stable. Dans Pref-GRPO, les images sont comparées par paires au sein de chaque groupe à l'aide d'un RM de préférence, et le taux de victoire est utilisé comme signal de récompense. Des expériences approfondies démontrent que Pref-GRPO différencie les subtiles différences de qualité d'image, offrant des avantages plus stables et atténuant le détournement de récompense. De plus, les benchmarks T2I existants sont limités par des critères d'évaluation grossiers, entravant une évaluation complète des modèles. Pour résoudre ce problème, nous introduisons UniGenBench, un benchmark T2I unifié comprenant 600 prompts répartis en 5 thèmes principaux et 20 sous-thèmes. Il évalue la cohérence sémantique à travers 10 critères principaux et 27 sous-critères, en s'appuyant sur MLLM pour la construction et l'évaluation du benchmark. Nos benchmarks révèlent les forces et les faiblesses des modèles T2I open-source et propriétaires, et valident l'efficacité de Pref-GRPO.

English

Recent advancements highlight the importance of GRPO-based reinforcement learning methods and benchmarking in enhancing text-to-image (T2I) generation. However, current methods using pointwise reward models (RM) for scoring generated images are susceptible to reward hacking. We reveal that this happens when minimal score differences between images are amplified after normalization, creating illusory advantages that drive the model to over-optimize for trivial gains, ultimately destabilizing the image generation process. To address this, we propose Pref-GRPO, a pairwise preference reward-based GRPO method that shifts the optimization objective from score maximization to preference fitting, ensuring more stable training. In Pref-GRPO, images are pairwise compared within each group using preference RM, and the win rate is used as the reward signal. Extensive experiments demonstrate that PREF-GRPO differentiates subtle image quality differences, providing more stable advantages and mitigating reward hacking. Additionally, existing T2I benchmarks are limited by coarse evaluation criteria, hindering comprehensive model assessment. To solve this, we introduce UniGenBench, a unified T2I benchmark comprising 600 prompts across 5 main themes and 20 subthemes. It evaluates semantic consistency through 10 primary and 27 sub-criteria, leveraging MLLM for benchmark construction and evaluation. Our benchmarks uncover the strengths and weaknesses of both open and closed-source T2I models and validate the effectiveness of Pref-GRPO.

Pref-GRPO : GRPO basé sur la récompense par préférence par paire pour un apprentissage par renforcement stable en génération d'images à partir de texte

Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning

papers.abstract

Support