GRPO-Guard: 규제된 클리핑을 통한 플로우 매칭의 암묵적 과최적화 완화
GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping
October 25, 2025
저자: Jing Wang, Jiajun Liang, Jie Liu, Henglin Liu, Gongye Liu, Jun Zheng, Wanyuan Pang, Ao Ma, Zhenyu Xie, Xintao Wang, Meng Wang, Pengfei Wan, Xiaodan Liang
cs.AI
초록
최근 GRPO 기반 강화 학습은 흐름 일치 모델 최적화에서 뚜렷한 진전을 보이며, 작업 특화 보상과의 정렬을 효과적으로 개선하고 있습니다. 이러한 프레임워크 내에서 정책 업데이트는 과도하게 확신에 찬 양의 및 음의 그래디언트를 제한하기 위해 중요도 비율 클리핑에 의존합니다. 그러나 실제로 중요도 비율 분포에 체계적인 변화가 관측됩니다. 즉, 그 평균이 1 미만으로 떨어지고 분산이 타임스텝에 따라 크게 달라집니다. 이렇게 왼쪽으로 치우치고 불일치하는 분포는 긍정적 이점을 가진 샘플이 클리핑 영역에 진입하는 것을 막아, 해당 메커니즘이 과도하게 확신에 찬 양의 업데이트를 제약하는 데 실패하게 합니다. 그 결과 정책 모델은 필연적으로 암묵적인 과최적화 단계에 진입하게 되는데, 프록시 보상은 계속 증가하는 반면 이미지 품질 및 텍스트 프롬프트 정렬과 같은 핵심 지표는 급격히 악화되어 결국 학습된 정책을 실제 환경에 적용하기 어렵게 만듭니다. 이러한 문제를 해결하기 위해, 우리는 기존 GRPO 프레임워크에 간단하면서도 효과적인 개선 사항인 GRPO-Guard를 소개합니다. 우리의 방법은 비율 정규화를 통합하여 균형 잡히고 타임스텝 간 일관된 중요도 비율을 복원함으로써 PPO 클리핑이 노이즈 제거 타임스텝 전반에 걸쳐 유해한 업데이트를 적절히 제약하도록 보장합니다. 추가적으로, 그래디언트 재가중 전략은 노이즈 조건에 따른 정책 그래디언트를 균등화하여 특정 타임스텝 영역으로부터의 과도한 업데이트를 방지합니다. 이러한 설계들은 함께 조절된 클리핑 메커니즘으로 작동하여 강력한 KL 정규화에 의존하지 않으면서도 최적화를 안정화하고 암묵적 과최적화를 상당히 완화합니다. 다양한 디퓨전 백본(예: SD3.5M, Flux.1-dev)과 다양한 프록시 작업에 대한 광범위한 실험을 통해 GRPO-Guard가 생성 품질을 유지하거나 오히려 개선하면서도 과최적화를 현저히 줄인다는 것을 입증했습니다.
English
Recently, GRPO-based reinforcement learning has shown remarkable progress in
optimizing flow-matching models, effectively improving their alignment with
task-specific rewards. Within these frameworks, the policy update relies on
importance-ratio clipping to constrain overconfident positive and negative
gradients. However, in practice, we observe a systematic shift in the
importance-ratio distribution-its mean falls below 1 and its variance differs
substantially across timesteps. This left-shifted and inconsistent distribution
prevents positive-advantage samples from entering the clipped region, causing
the mechanism to fail in constraining overconfident positive updates. As a
result, the policy model inevitably enters an implicit over-optimization
stage-while the proxy reward continues to increase, essential metrics such as
image quality and text-prompt alignment deteriorate sharply, ultimately making
the learned policy impractical for real-world use. To address this issue, we
introduce GRPO-Guard, a simple yet effective enhancement to existing GRPO
frameworks. Our method incorporates ratio normalization, which restores a
balanced and step-consistent importance ratio, ensuring that PPO clipping
properly constrains harmful updates across denoising timesteps. In addition, a
gradient reweighting strategy equalizes policy gradients over noise conditions,
preventing excessive updates from particular timestep regions. Together, these
designs act as a regulated clipping mechanism, stabilizing optimization and
substantially mitigating implicit over-optimization without relying on heavy KL
regularization. Extensive experiments on multiple diffusion backbones (e.g.,
SD3.5M, Flux.1-dev) and diverse proxy tasks demonstrate that GRPO-Guard
significantly reduces over-optimization while maintaining or even improving
generation quality.