ChatPaper.aiChatPaper

GRPO-Guard: 正則化クリッピングによるFlow Matchingにおける暗黙的過最適化の軽減

GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping

October 25, 2025
著者: Jing Wang, Jiajun Liang, Jie Liu, Henglin Liu, Gongye Liu, Jun Zheng, Wanyuan Pang, Ao Ma, Zhenyu Xie, Xintao Wang, Meng Wang, Pengfei Wan, Xiaodan Liang
cs.AI

要旨

近年、GRPOベースの強化学習はフローマッチングモデルの最適化において顕著な進歩を示し、タスク固有の報酬との整合性を効果的に向上させてきた。これらのフレームワーク内では、ポリシー更新は重要度比クリッピングに依存し、過度に自信過剰な正負の勾配を制約している。しかし実際には、重要度比分布に系統的な偏りが生じていることが観測される。つまり、その平均値は1を下回り、分散はタイムステップ間で大きく異なる。この左に偏り、一貫性のない分布は、正のアドバンテージを持つサンプルがクリップ領域に入るのを妨げ、過剰な正の更新を制約するメカニズムが機能不全に陥る原因となる。その結果、ポリシーモデルは暗黙的な過最適化段階に必然的に突入する——代理報酬は増加し続ける一方で、画像品質やテキストプロンプトとの整合性といった本質的な指標は急激に悪化し、最終的には学習されたポリシーが実世界での使用に耐えないものとなる。この問題を解決するため、我々は既存のGRPOフレームワークに対するシンプルかつ効果的な拡張であるGRPO-Guardを提案する。本手法は比率正規化を組み込むことで、バランスが取れタイムステップ間で一貫した重要度比を回復し、PPOクリッピングがノイズ除去の各ステップにおいて有害な更新を適切に制約することを保証する。さらに、勾配再重み付け戦略により、ノイズ条件間でのポリシー勾配が均等化され、特定のタイムステップ領域からの過剰な更新が防止される。これらの設計が連携して調整されたクリッピング機構として機能し、重いKL正則化に依存することなく最適化を安定化させ、暗黙的な過最適化を大幅に緩和する。複数の拡散モデルバックボーン(SD3.5M、Flux.1-dev等)および多様な代理タスクにおける大規模な実験により、GRPO-Guardが生成品質を維持あるいは向上させながら、過最適化を有意に低減することが実証された。
English
Recently, GRPO-based reinforcement learning has shown remarkable progress in optimizing flow-matching models, effectively improving their alignment with task-specific rewards. Within these frameworks, the policy update relies on importance-ratio clipping to constrain overconfident positive and negative gradients. However, in practice, we observe a systematic shift in the importance-ratio distribution-its mean falls below 1 and its variance differs substantially across timesteps. This left-shifted and inconsistent distribution prevents positive-advantage samples from entering the clipped region, causing the mechanism to fail in constraining overconfident positive updates. As a result, the policy model inevitably enters an implicit over-optimization stage-while the proxy reward continues to increase, essential metrics such as image quality and text-prompt alignment deteriorate sharply, ultimately making the learned policy impractical for real-world use. To address this issue, we introduce GRPO-Guard, a simple yet effective enhancement to existing GRPO frameworks. Our method incorporates ratio normalization, which restores a balanced and step-consistent importance ratio, ensuring that PPO clipping properly constrains harmful updates across denoising timesteps. In addition, a gradient reweighting strategy equalizes policy gradients over noise conditions, preventing excessive updates from particular timestep regions. Together, these designs act as a regulated clipping mechanism, stabilizing optimization and substantially mitigating implicit over-optimization without relying on heavy KL regularization. Extensive experiments on multiple diffusion backbones (e.g., SD3.5M, Flux.1-dev) and diverse proxy tasks demonstrate that GRPO-Guard significantly reduces over-optimization while maintaining or even improving generation quality.
PDF21December 1, 2025