GRPO-Guard : Atténuation de la sur-optimisation implicite dans l'appariement de flux par écrêtage régulé
GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping
October 25, 2025
papers.authors: Jing Wang, Jiajun Liang, Jie Liu, Henglin Liu, Gongye Liu, Jun Zheng, Wanyuan Pang, Ao Ma, Zhenyu Xie, Xintao Wang, Meng Wang, Pengfei Wan, Xiaodan Liang
cs.AI
papers.abstract
Récemment, l'apprentissage par renforcement basé sur GRPO a réalisé des progrès remarquables dans l'optimisation des modèles de « flow-matching », améliorant efficacement leur alignement avec des récompenses spécifiques aux tâches. Dans ces cadres, la mise à jour de la politique repose sur l'écrêtage du ratio d'importance pour contraindre les gradients positifs et négatifs trop confiants. Cependant, en pratique, nous observons un décalage systématique dans la distribution du ratio d'importance : sa moyenne tombe en dessous de 1 et sa variance varie considérablement selon les pas de temps. Cette distribution décalée vers la gauche et incohérente empêche les échantillons à avantage positif d'entrer dans la région écrêtée, ce qui fait que le mécanisme échoue à contraindre les mises à jour positives trop confiantes. Par conséquent, le modèle de politique entre inévitablement dans une phase d'optimisation implicite excessive : tandis que la récompense proxy continue d'augmenter, des métriques essentielles telles que la qualité de l'image et l'alignement avec l'invite texte se dégradent fortement, rendant finalement la politique apprise impraticable pour une utilisation réelle. Pour résoudre ce problème, nous présentons GRPO-Guard, une amélioration simple mais efficace des cadres GRPO existants. Notre méthode intègre une normalisation du ratio, qui rétablit un ratio d'importance équilibré et cohérent dans le temps, garantissant que l'écrêtage PPO contraigne correctement les mises à jour néfastes à travers les pas de débruitage. De plus, une stratégie de repondération du gradient égalise les gradients de politique sur les conditions de bruit, empêchant les mises à jour excessives provenant de régions particulières de pas de temps. Ensemble, ces conceptions agissent comme un mécanisme d'écrêtage régulé, stabilisant l'optimisation et atténuant substantiellement la suroptimisation implicite sans recourir à une régularisation KL lourde. Des expériences approfondies sur plusieurs architectures de diffusion (par exemple, SD3.5M, Flux.1-dev) et diverses tâches proxy démontrent que GRPO-Guard réduit significativement la suroptimisation tout en maintenant, voire en améliorant, la qualité de génération.
English
Recently, GRPO-based reinforcement learning has shown remarkable progress in
optimizing flow-matching models, effectively improving their alignment with
task-specific rewards. Within these frameworks, the policy update relies on
importance-ratio clipping to constrain overconfident positive and negative
gradients. However, in practice, we observe a systematic shift in the
importance-ratio distribution-its mean falls below 1 and its variance differs
substantially across timesteps. This left-shifted and inconsistent distribution
prevents positive-advantage samples from entering the clipped region, causing
the mechanism to fail in constraining overconfident positive updates. As a
result, the policy model inevitably enters an implicit over-optimization
stage-while the proxy reward continues to increase, essential metrics such as
image quality and text-prompt alignment deteriorate sharply, ultimately making
the learned policy impractical for real-world use. To address this issue, we
introduce GRPO-Guard, a simple yet effective enhancement to existing GRPO
frameworks. Our method incorporates ratio normalization, which restores a
balanced and step-consistent importance ratio, ensuring that PPO clipping
properly constrains harmful updates across denoising timesteps. In addition, a
gradient reweighting strategy equalizes policy gradients over noise conditions,
preventing excessive updates from particular timestep regions. Together, these
designs act as a regulated clipping mechanism, stabilizing optimization and
substantially mitigating implicit over-optimization without relying on heavy KL
regularization. Extensive experiments on multiple diffusion backbones (e.g.,
SD3.5M, Flux.1-dev) and diverse proxy tasks demonstrate that GRPO-Guard
significantly reduces over-optimization while maintaining or even improving
generation quality.