ChatPaper.aiChatPaper

GRPO-Guard: Mitigação da Otimização Excessiva Implícita no Flow Matching por meio de Recorte Regulado

GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping

October 25, 2025
Autores: Jing Wang, Jiajun Liang, Jie Liu, Henglin Liu, Gongye Liu, Jun Zheng, Wanyuan Pang, Ao Ma, Zhenyu Xie, Xintao Wang, Meng Wang, Pengfei Wan, Xiaodan Liang
cs.AI

Resumo

Recentemente, a aprendizagem por reforço baseada em GRPO (Guided Reward Policy Optimization) tem demonstrado progressos notáveis na otimização de modelos de correspondência de fluxo (flow-matching), melhorando eficazmente o seu alinhamento com recompensas específicas da tarefa. Nestas arquiteturas, a atualização da política depende do corte (clipping) da razão de importância para restringir gradientes positivos e negativos excessivamente confiantes. No entanto, na prática, observa-se uma mudança sistemática na distribuição da razão de importância: a sua média fica abaixo de 1 e a sua variância difere substancialmente ao longo dos passos de tempo. Esta distribuição deslocada para a esquerda e inconsistente impede que amostras com vantagem positiva entrem na região de corte, fazendo com que o mecanismo falhe em restringir atualizações positivas excessivamente confiantes. Como resultado, o modelo de política entra inevitavelmente numa fase de sobre-otimização implícita: enquanto a recompensa proxy continua a aumentar, métricas essenciais, como a qualidade da imagem e o alinhamento com o prompt de texto, deterioram-se acentuadamente, tornando a política aprendida impraticável para uso real. Para resolver este problema, introduzimos o GRPO-Guard, uma melhoria simples mas eficaz para as arquiteturas GRPO existentes. O nosso método incorpora uma normalização da razão, que restaura uma razão de importância equilibrada e consistente entre os passos, garantindo que o corte do PPO restringe adequadamente as atualizações prejudiciais ao longo dos passos de desruído. Adicionalmente, uma estratégia de reponderação do gradiente equaliza os gradientes da política sobre as condições de ruído, impedindo atualizações excessivas de regiões específicas de passos de tempo. Em conjunto, estes elementos funcionam como um mecanismo de corte regulado, estabilizando a otimização e mitigando substancialmente a sobre-otimização implícita sem depender de uma pesada regularização de KL. Experiências extensas em múltiplos modelos base de difusão (por exemplo, SD3.5M, Flux.1-dev) e diversas tarefas proxy demonstram que o GRPO-Guard reduz significativamente a sobre-otimização, mantendo ou mesmo melhorando a qualidade da geração.
English
Recently, GRPO-based reinforcement learning has shown remarkable progress in optimizing flow-matching models, effectively improving their alignment with task-specific rewards. Within these frameworks, the policy update relies on importance-ratio clipping to constrain overconfident positive and negative gradients. However, in practice, we observe a systematic shift in the importance-ratio distribution-its mean falls below 1 and its variance differs substantially across timesteps. This left-shifted and inconsistent distribution prevents positive-advantage samples from entering the clipped region, causing the mechanism to fail in constraining overconfident positive updates. As a result, the policy model inevitably enters an implicit over-optimization stage-while the proxy reward continues to increase, essential metrics such as image quality and text-prompt alignment deteriorate sharply, ultimately making the learned policy impractical for real-world use. To address this issue, we introduce GRPO-Guard, a simple yet effective enhancement to existing GRPO frameworks. Our method incorporates ratio normalization, which restores a balanced and step-consistent importance ratio, ensuring that PPO clipping properly constrains harmful updates across denoising timesteps. In addition, a gradient reweighting strategy equalizes policy gradients over noise conditions, preventing excessive updates from particular timestep regions. Together, these designs act as a regulated clipping mechanism, stabilizing optimization and substantially mitigating implicit over-optimization without relying on heavy KL regularization. Extensive experiments on multiple diffusion backbones (e.g., SD3.5M, Flux.1-dev) and diverse proxy tasks demonstrate that GRPO-Guard significantly reduces over-optimization while maintaining or even improving generation quality.
PDF31February 7, 2026