GRPO-Guard: Mitigación de la Sobreoptimización Implícita en Flow Matching mediante Recorte Regulado
GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping
October 25, 2025
Autores: Jing Wang, Jiajun Liang, Jie Liu, Henglin Liu, Gongye Liu, Jun Zheng, Wanyuan Pang, Ao Ma, Zhenyu Xie, Xintao Wang, Meng Wang, Pengfei Wan, Xiaodan Liang
cs.AI
Resumen
Recientemente, el aprendizaje por refuerzo basado en GRPO ha mostrado un progreso notable en la optimización de modelos de correspondencia de flujos (flow-matching), mejorando eficazmente su alineación con las recompensas específicas de la tarea. Dentro de estos marcos, la actualización de la política se basa en el recorte del ratio de importancia para restringir los gradientes positivos y negativos sobreconfiados. Sin embargo, en la práctica, observamos un cambio sistemático en la distribución del ratio de importancia: su media cae por debajo de 1 y su varía sustancialmente entre los diferentes pasos temporales. Esta distribución desplazada a la izquierda e inconsistente impide que las muestras con ventaja positiva entren en la región de recorte, haciendo que el mecanismo falle al restringir las actualizaciones positivas sobreconfiadas. Como resultado, el modelo de política entra inevitablemente en una etapa de sobreoptimización implícita: mientras la recompensa proxy continúa aumentando, métricas esenciales como la calidad de la imagen y la alineación con el prompt de texto se deterioran bruscamente, haciendo que la política aprendida sea finalmente impracticable para su uso en el mundo real. Para abordar este problema, presentamos GRPO-Guard, una mejora sencilla pero efectiva para los marcos GRPO existentes. Nuestro método incorpora una normalización del ratio, que restaura un ratio de importancia equilibrado y consistente entre pasos, asegurando que el recorte PPO restrinja correctamente las actualizaciones perjudiciales a lo largo de los pasos de desruido. Además, una estrategia de reponderación del gradiente iguala los gradientes de la política sobre las condiciones de ruido, evitando actualizaciones excesivas de regiones particulares de pasos temporales. En conjunto, estos diseños actúan como un mecanismo de recorte regulado, estabilizando la optimización y mitigando sustancialmente la sobreoptimización implícita sin depender de una pesada regularización KL. Experimentos exhaustivos en múltiples arquitecturas de difusión (por ejemplo, SD3.5M, Flux.1-dev) y diversas tareas proxy demuestran que GRPO-Guard reduce significativamente la sobreoptimización al mismo tiempo que mantiene o incluso mejora la calidad de la generación.
English
Recently, GRPO-based reinforcement learning has shown remarkable progress in
optimizing flow-matching models, effectively improving their alignment with
task-specific rewards. Within these frameworks, the policy update relies on
importance-ratio clipping to constrain overconfident positive and negative
gradients. However, in practice, we observe a systematic shift in the
importance-ratio distribution-its mean falls below 1 and its variance differs
substantially across timesteps. This left-shifted and inconsistent distribution
prevents positive-advantage samples from entering the clipped region, causing
the mechanism to fail in constraining overconfident positive updates. As a
result, the policy model inevitably enters an implicit over-optimization
stage-while the proxy reward continues to increase, essential metrics such as
image quality and text-prompt alignment deteriorate sharply, ultimately making
the learned policy impractical for real-world use. To address this issue, we
introduce GRPO-Guard, a simple yet effective enhancement to existing GRPO
frameworks. Our method incorporates ratio normalization, which restores a
balanced and step-consistent importance ratio, ensuring that PPO clipping
properly constrains harmful updates across denoising timesteps. In addition, a
gradient reweighting strategy equalizes policy gradients over noise conditions,
preventing excessive updates from particular timestep regions. Together, these
designs act as a regulated clipping mechanism, stabilizing optimization and
substantially mitigating implicit over-optimization without relying on heavy KL
regularization. Extensive experiments on multiple diffusion backbones (e.g.,
SD3.5M, Flux.1-dev) and diverse proxy tasks demonstrate that GRPO-Guard
significantly reduces over-optimization while maintaining or even improving
generation quality.