ChatPaper.aiChatPaper

Pref-GRPO: GRPO Baseado em Recompensa de Preferência Pareada para Aprendizado por Reforço Estável em Texto para Imagem

Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning

August 28, 2025
Autores: Yibin Wang, Zhimin Li, Yuhang Zang, Yujie Zhou, Jiazi Bu, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang
cs.AI

Resumo

Avanços recentes destacam a importância dos métodos de aprendizado por reforço baseados em GRPO e de benchmarking para aprimorar a geração de texto para imagem (T2I). No entanto, os métodos atuais que utilizam modelos de recompensa pontual (RM) para pontuar imagens geradas são suscetíveis a manipulação de recompensa. Revelamos que isso ocorre quando diferenças mínimas de pontuação entre imagens são amplificadas após a normalização, criando vantagens ilusórias que levam o modelo a otimizar excessivamente para ganhos triviais, desestabilizando, por fim, o processo de geração de imagens. Para resolver isso, propomos o Pref-GRPO, um método GRPO baseado em recompensa de preferência pareada que muda o objetivo de otimização da maximização de pontuação para o ajuste de preferências, garantindo um treinamento mais estável. No Pref-GRPO, as imagens são comparadas em pares dentro de cada grupo usando um RM de preferência, e a taxa de vitória é usada como sinal de recompensa. Experimentos extensivos demonstram que o Pref-GRPO diferencia sutis diferenças de qualidade de imagem, proporcionando vantagens mais estáveis e mitigando a manipulação de recompensa. Além disso, os benchmarks T2I existentes são limitados por critérios de avaliação grosseiros, dificultando uma avaliação abrangente dos modelos. Para resolver isso, introduzimos o UniGenBench, um benchmark T2I unificado composto por 600 prompts abrangendo 5 temas principais e 20 subtemas. Ele avalia a consistência semântica por meio de 10 critérios primários e 27 subcritérios, aproveitando MLLM para a construção e avaliação do benchmark. Nossos benchmarks revelam os pontos fortes e fracos dos modelos T2I de código aberto e fechado e validam a eficácia do Pref-GRPO.
English
Recent advancements highlight the importance of GRPO-based reinforcement learning methods and benchmarking in enhancing text-to-image (T2I) generation. However, current methods using pointwise reward models (RM) for scoring generated images are susceptible to reward hacking. We reveal that this happens when minimal score differences between images are amplified after normalization, creating illusory advantages that drive the model to over-optimize for trivial gains, ultimately destabilizing the image generation process. To address this, we propose Pref-GRPO, a pairwise preference reward-based GRPO method that shifts the optimization objective from score maximization to preference fitting, ensuring more stable training. In Pref-GRPO, images are pairwise compared within each group using preference RM, and the win rate is used as the reward signal. Extensive experiments demonstrate that PREF-GRPO differentiates subtle image quality differences, providing more stable advantages and mitigating reward hacking. Additionally, existing T2I benchmarks are limited by coarse evaluation criteria, hindering comprehensive model assessment. To solve this, we introduce UniGenBench, a unified T2I benchmark comprising 600 prompts across 5 main themes and 20 subthemes. It evaluates semantic consistency through 10 primary and 27 sub-criteria, leveraging MLLM for benchmark construction and evaluation. Our benchmarks uncover the strengths and weaknesses of both open and closed-source T2I models and validate the effectiveness of Pref-GRPO.
PDF885August 29, 2025