ChatPaper.aiChatPaper

Pref-GRPO: Paarweise Präferenz-Belohnungsbasierter GRPO für stabiles Text-zu-Bild-Verstärkungslernen

Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning

August 28, 2025
papers.authors: Yibin Wang, Zhimin Li, Yuhang Zang, Yujie Zhou, Jiazi Bu, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang
cs.AI

papers.abstract

Jüngste Fortschritte unterstreichen die Bedeutung von GRPO-basierten Reinforcement-Learning-Methoden und Benchmarking bei der Verbesserung der Text-zu-Bild (T2I)-Generierung. Allerdings sind aktuelle Methoden, die punktuelle Belohnungsmodelle (RM) zur Bewertung generierter Bilder verwenden, anfällig für Reward Hacking. Wir zeigen, dass dies geschieht, wenn minimale Bewertungsunterschiede zwischen Bildern nach der Normalisierung verstärkt werden, was illusorische Vorteile schafft, die das Modell dazu veranlassen, sich übermäßig auf triviale Gewinne zu optimieren, was letztendlich den Bildgenerierungsprozess destabilisiert. Um dies zu beheben, schlagen wir Pref-GRPO vor, eine GRPO-Methode basierend auf paarweisen Präferenzbelohnungen, die das Optimierungsziel von der Bewertungsmaximierung auf die Anpassung von Präferenzen verlagert und so ein stabileres Training gewährleistet. Bei Pref-GRPO werden Bilder innerhalb jeder Gruppe paarweise mit einem Präferenz-RM verglichen, und die Gewinnrate wird als Belohnungssignal verwendet. Umfangreiche Experimente zeigen, dass Pref-GRPO subtile Unterschiede in der Bildqualität unterscheidet, stabilere Vorteile bietet und Reward Hacking reduziert. Darüber hinaus sind bestehende T2I-Benchmarks durch grobe Bewertungskriterien eingeschränkt, was eine umfassende Modellbewertung behindert. Um dies zu lösen, führen wir UniGenBench ein, einen einheitlichen T2I-Benchmark, der 600 Prompts über 5 Hauptthemen und 20 Unterthemen umfasst. Er bewertet die semantische Konsistenz durch 10 primäre und 27 sekundäre Kriterien und nutzt MLLM für die Konstruktion und Bewertung des Benchmarks. Unsere Benchmarks decken die Stärken und Schwächen sowohl offener als auch proprietärer T2I-Modelle auf und validieren die Wirksamkeit von Pref-GRPO.
English
Recent advancements highlight the importance of GRPO-based reinforcement learning methods and benchmarking in enhancing text-to-image (T2I) generation. However, current methods using pointwise reward models (RM) for scoring generated images are susceptible to reward hacking. We reveal that this happens when minimal score differences between images are amplified after normalization, creating illusory advantages that drive the model to over-optimize for trivial gains, ultimately destabilizing the image generation process. To address this, we propose Pref-GRPO, a pairwise preference reward-based GRPO method that shifts the optimization objective from score maximization to preference fitting, ensuring more stable training. In Pref-GRPO, images are pairwise compared within each group using preference RM, and the win rate is used as the reward signal. Extensive experiments demonstrate that PREF-GRPO differentiates subtle image quality differences, providing more stable advantages and mitigating reward hacking. Additionally, existing T2I benchmarks are limited by coarse evaluation criteria, hindering comprehensive model assessment. To solve this, we introduce UniGenBench, a unified T2I benchmark comprising 600 prompts across 5 main themes and 20 subthemes. It evaluates semantic consistency through 10 primary and 27 sub-criteria, leveraging MLLM for benchmark construction and evaluation. Our benchmarks uncover the strengths and weaknesses of both open and closed-source T2I models and validate the effectiveness of Pref-GRPO.
PDF724August 29, 2025