GRPO-Guard: Milderung impliziter Überoptimierung in Flow Matching durch reguliertes Clipping
GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping
October 25, 2025
papers.authors: Jing Wang, Jiajun Liang, Jie Liu, Henglin Liu, Gongye Liu, Jun Zheng, Wanyuan Pang, Ao Ma, Zhenyu Xie, Xintao Wang, Meng Wang, Pengfei Wan, Xiaodan Liang
cs.AI
papers.abstract
Kürzlich hat GRPO-basierte Verstärkungslernung bemerkenswerte Fortschritte bei der Optimierung von Flow-Matching-Modellen erzielt und deren Ausrichtung auf aufgabenspezifische Belohnungen effektiv verbessert. In diesen Frameworks stützt sich die Policy-Aktualisierung auf Importance-Ratio-Clipping, um übermäßig positive und negative Gradienten einzuschränken. In der Praxis beobachten wir jedoch eine systematische Verschiebung der Importance-Ratio-Verteilung – ihr Mittelwert fällt unter 1 und ihre Varianz unterscheidet sich erheblich über Zeitschritte hinweg. Diese linksverschobene und inkonsistente Verteilung verhindert, dass Proben mit positivem Vorteil in den geclippten Bereich gelangen, was dazu führt, dass der Mechanismus bei der Begrenzung übermäßig positiver Updates versagt. Infolgedessen gerät das Policy-Modell unweigerlich in eine implizite Überoptimierungsphase – während die Proxy-Belohnung weiter ansteigt, verschlechtern sich essentielle Metriken wie Bildqualität und Text-Prompt-Ausrichtung stark, was die gelernte Policy letztlich unpraktikabel für reale Anwendungen macht. Um dieses Problem zu lösen, führen wir GRPO-Guard ein, eine einfache, aber effektive Verbesserung bestehender GRPO-Frameworks. Unsere Methode integriert eine Ratio-Normalisierung, die eine ausgewogene und schrittkonsistente Importance-Ratio wiederherstellt und sicherstellt, dass das PPO-Clipping schädliche Updates über Denoising-Zeitschritte hinweg ordnungsgemäß begrenzt. Zusätzlich gleicht eine Gradienten-Neugewichtungsstrategie die Policy-Gradienten über Rauschbedingungen hinweg aus und verhindert übermäßige Updates aus bestimmten Zeitschrittbereichen. Zusammen wirken diese Entwürfe als regulierter Clipping-Mechanismus, stabilisieren die Optimierung und mildern die implizite Überoptimierung erheblich, ohne auf aufwändige KL-Regularisierung angewiesen zu sein. Umfangreiche Experimente mit verschiedenen Diffusion-Backbones (z.B. SD3.5M, Flux.1-dev) und diversen Proxy-Aufgaben zeigen, dass GRPO-Guard die Überoptimierung signifikant reduziert und gleichzeitig die Generierungsqualität beibehält oder sogar verbessert.
English
Recently, GRPO-based reinforcement learning has shown remarkable progress in
optimizing flow-matching models, effectively improving their alignment with
task-specific rewards. Within these frameworks, the policy update relies on
importance-ratio clipping to constrain overconfident positive and negative
gradients. However, in practice, we observe a systematic shift in the
importance-ratio distribution-its mean falls below 1 and its variance differs
substantially across timesteps. This left-shifted and inconsistent distribution
prevents positive-advantage samples from entering the clipped region, causing
the mechanism to fail in constraining overconfident positive updates. As a
result, the policy model inevitably enters an implicit over-optimization
stage-while the proxy reward continues to increase, essential metrics such as
image quality and text-prompt alignment deteriorate sharply, ultimately making
the learned policy impractical for real-world use. To address this issue, we
introduce GRPO-Guard, a simple yet effective enhancement to existing GRPO
frameworks. Our method incorporates ratio normalization, which restores a
balanced and step-consistent importance ratio, ensuring that PPO clipping
properly constrains harmful updates across denoising timesteps. In addition, a
gradient reweighting strategy equalizes policy gradients over noise conditions,
preventing excessive updates from particular timestep regions. Together, these
designs act as a regulated clipping mechanism, stabilizing optimization and
substantially mitigating implicit over-optimization without relying on heavy KL
regularization. Extensive experiments on multiple diffusion backbones (e.g.,
SD3.5M, Flux.1-dev) and diverse proxy tasks demonstrate that GRPO-Guard
significantly reduces over-optimization while maintaining or even improving
generation quality.