GRPO-Guard: Mitigazione dell'Ottimizzazione Implicita Eccessiva nel Flow Matching tramite Clipping Regolato
GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping
October 25, 2025
Autori: Jing Wang, Jiajun Liang, Jie Liu, Henglin Liu, Gongye Liu, Jun Zheng, Wanyuan Pang, Ao Ma, Zhenyu Xie, Xintao Wang, Meng Wang, Pengfei Wan, Xiaodan Liang
cs.AI
Abstract
Recentemente, l'apprendimento per rinforzo basato su GRPO ha mostrato progressi notevoli nell'ottimizzazione dei modelli di flow-matching, migliorandone efficacemente l'allineamento con ricompense specifiche per il compito. In questi framework, l'aggiornamento della policy si basa sul clipping del rapporto di importanza per limitare gradienti positivi e negativi eccessivamente confidenti. Tuttavia, nella pratica si osserva uno spostamento sistematico nella distribuzione del rapporto di importanza: la sua media scende al di sotto di 1 e la sua varianza varia sostanzialmente tra i diversi timestep. Questa distribuzione spostata a sinistra e inconsistente impedisce ai campioni con vantaggio positivo di entrare nella regione di clipping, facendo fallire il meccanismo nel contenere gli aggiornamenti positivi sovraconfidenti. Di conseguenza, il modello di policy entra inevitabilmente in una fase di over-optimization implicita: mentre la ricompensa proxy continua ad aumentare, metriche essenziali come la qualità dell'immagine e l'allineamento con il prompt testuale si deteriorano bruscamente, rendendo infine la policy appresa impraticabile per un uso reale. Per affrontare questo problema, introduciamo GRPO-Guard, un potenziamento semplice ma efficace per i framework GRPO esistenti. Il nostro metodo incorpora una normalizzazione del rapporto, che ripristina un rapporto di importanza bilanciato e consistente tra i passi, garantendo che il clipping PPO limiti adeguatamente gli aggiornamenti dannosi lungo i timestep di denoising. In aggiunta, una strategia di riponderazione del gradiente equalizza i gradienti della policy sulle diverse condizioni di rumore, prevenendo aggiornamenti eccessivi da regioni specifiche di timestep. Insieme, questi elementi funzionano come un meccanismo di clipping regolato, stabilizzando l'ottimizzazione e mitigando sostanzialmente l'over-optimization implicita senza fare affidamento su una pesante regolarizzazione KL. Esperimenti estesi su molteplici backbone di diffusione (ad es. SD3.5M, Flux.1-dev) e su compiti proxy diversificati dimostrano che GRPO-Guard riduce significativamente l'over-optimizzazione mantenendo o persino migliorando la qualità della generazione.
English
Recently, GRPO-based reinforcement learning has shown remarkable progress in
optimizing flow-matching models, effectively improving their alignment with
task-specific rewards. Within these frameworks, the policy update relies on
importance-ratio clipping to constrain overconfident positive and negative
gradients. However, in practice, we observe a systematic shift in the
importance-ratio distribution-its mean falls below 1 and its variance differs
substantially across timesteps. This left-shifted and inconsistent distribution
prevents positive-advantage samples from entering the clipped region, causing
the mechanism to fail in constraining overconfident positive updates. As a
result, the policy model inevitably enters an implicit over-optimization
stage-while the proxy reward continues to increase, essential metrics such as
image quality and text-prompt alignment deteriorate sharply, ultimately making
the learned policy impractical for real-world use. To address this issue, we
introduce GRPO-Guard, a simple yet effective enhancement to existing GRPO
frameworks. Our method incorporates ratio normalization, which restores a
balanced and step-consistent importance ratio, ensuring that PPO clipping
properly constrains harmful updates across denoising timesteps. In addition, a
gradient reweighting strategy equalizes policy gradients over noise conditions,
preventing excessive updates from particular timestep regions. Together, these
designs act as a regulated clipping mechanism, stabilizing optimization and
substantially mitigating implicit over-optimization without relying on heavy KL
regularization. Extensive experiments on multiple diffusion backbones (e.g.,
SD3.5M, Flux.1-dev) and diverse proxy tasks demonstrate that GRPO-Guard
significantly reduces over-optimization while maintaining or even improving
generation quality.