Pref-GRPO: Попарное предпочтение на основе вознаграждения GRPO для стабильного обучения с подкреплением в задачах генерации изображений из текста
Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning
August 28, 2025
Авторы: Yibin Wang, Zhimin Li, Yuhang Zang, Yujie Zhou, Jiazi Bu, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang
cs.AI
Аннотация
Последние достижения подчеркивают важность методов обучения с подкреплением на основе GRPO и бенчмаркинга для улучшения генерации изображений из текста (T2I). Однако современные методы, использующие точечные модели вознаграждения (RM) для оценки сгенерированных изображений, подвержены проблеме "взлома вознаграждения". Мы показываем, что это происходит, когда минимальные различия в оценках между изображениями усиливаются после нормализации, создавая иллюзорные преимущества, которые заставляют модель чрезмерно оптимизироваться для незначительных улучшений, что в конечном итоге дестабилизирует процесс генерации изображений. Для решения этой проблемы мы предлагаем Pref-GRPO — метод GRPO, основанный на парных предпочтениях, который смещает цель оптимизации с максимизации оценок на соответствие предпочтениям, обеспечивая более стабильное обучение. В Pref-GRPO изображения попарно сравниваются внутри каждой группы с использованием модели предпочтений RM, а частота выигрышей используется как сигнал вознаграждения. Многочисленные эксперименты демонстрируют, что Pref-GRPO лучше различает тонкие различия в качестве изображений, обеспечивая более стабильные преимущества и смягчая проблему взлома вознаграждения. Кроме того, существующие бенчмарки T2I ограничены грубыми критериями оценки, что затрудняет всестороннюю оценку моделей. Для решения этой проблемы мы представляем UniGenBench — унифицированный бенчмарк T2I, включающий 600 запросов по 5 основным темам и 20 подтемам. Он оценивает семантическую согласованность через 10 основных и 27 дополнительных критериев, используя MLLM для построения и оценки бенчмарка. Наши бенчмарки выявляют сильные и слабые стороны как открытых, так и закрытых моделей T2I и подтверждают эффективность Pref-GRPO.
English
Recent advancements highlight the importance of GRPO-based reinforcement
learning methods and benchmarking in enhancing text-to-image (T2I) generation.
However, current methods using pointwise reward models (RM) for scoring
generated images are susceptible to reward hacking. We reveal that this happens
when minimal score differences between images are amplified after
normalization, creating illusory advantages that drive the model to
over-optimize for trivial gains, ultimately destabilizing the image generation
process. To address this, we propose Pref-GRPO, a pairwise preference
reward-based GRPO method that shifts the optimization objective from score
maximization to preference fitting, ensuring more stable training. In
Pref-GRPO, images are pairwise compared within each group using preference RM,
and the win rate is used as the reward signal. Extensive experiments
demonstrate that PREF-GRPO differentiates subtle image quality differences,
providing more stable advantages and mitigating reward hacking. Additionally,
existing T2I benchmarks are limited by coarse evaluation criteria, hindering
comprehensive model assessment. To solve this, we introduce UniGenBench, a
unified T2I benchmark comprising 600 prompts across 5 main themes and 20
subthemes. It evaluates semantic consistency through 10 primary and 27
sub-criteria, leveraging MLLM for benchmark construction and evaluation. Our
benchmarks uncover the strengths and weaknesses of both open and closed-source
T2I models and validate the effectiveness of Pref-GRPO.