GRPO-Guard: Смягчение неявной сверхоптимизации в согласовании потоков с помощью регулируемого ограничения

Аннотация

В последнее время обучение с подкреплением на основе GRPO показало значительный прогресс в оптимизации моделей потокового согласования, эффективно улучшая их соответствие целевым задачам. В этих рамках обновление политики опирается на ограничение коэффициентов важности для сдерживания излишне уверенных положительных и отрицательных градиентов. Однако на практике наблюдается систематический сдвиг в распределении коэффициентов важности — их среднее значение падает ниже 1, а дисперсия существенно варьируется на разных временных шагах. Это смещенное влево и несогласованное распределение не позволяет примерам с положительным преимуществом попадать в область ограничения, в результате чего механизм не справляется с сдерживанием излишне уверенных положительных обновлений. Как следствие, модель политики неизбежно вступает в этап неявной сверхоптимизации — в то время как суррогатная награда продолжает расти, ключевые метрики, такие как качество изображения и соответствие текстовому промпту, резко ухудшаются, что в конечном итоге делает изученную политику непригодной для практического применения. Для решения этой проблемы мы представляем GRPO-Guard — простое, но эффективное улучшение существующих фреймворков GRPO. Наш метод включает нормализацию коэффициентов, которая восстанавливает сбалансированное и согласованное по шагам отношение важности, обеспечивая корректное ограничение вредоносных обновлений на всех шагах удаления шума. Дополнительно стратегия перевзвешивания градиентов выравнивает градиенты политики по условиям шума, предотвращая чрезмерные обновления из определенных временных областей. В совокупности эти решения действуют как регулируемый механизм ограничения, стабилизируя оптимизацию и существенно смягчая неявную сверхоптимизацию без reliance на тяжелую KL-регуляризацию. Многочисленные эксперименты на различных диффузионных архитектурах (например, SD3.5M, Flux.1-dev) и разнообразных суррогатных задачах демонстрируют, что GRPO-Guard значительно снижает сверхоптимизацию, сохраняя или даже улучшая качество генерации.

English

Recently, GRPO-based reinforcement learning has shown remarkable progress in optimizing flow-matching models, effectively improving their alignment with task-specific rewards. Within these frameworks, the policy update relies on importance-ratio clipping to constrain overconfident positive and negative gradients. However, in practice, we observe a systematic shift in the importance-ratio distribution-its mean falls below 1 and its variance differs substantially across timesteps. This left-shifted and inconsistent distribution prevents positive-advantage samples from entering the clipped region, causing the mechanism to fail in constraining overconfident positive updates. As a result, the policy model inevitably enters an implicit over-optimization stage-while the proxy reward continues to increase, essential metrics such as image quality and text-prompt alignment deteriorate sharply, ultimately making the learned policy impractical for real-world use. To address this issue, we introduce GRPO-Guard, a simple yet effective enhancement to existing GRPO frameworks. Our method incorporates ratio normalization, which restores a balanced and step-consistent importance ratio, ensuring that PPO clipping properly constrains harmful updates across denoising timesteps. In addition, a gradient reweighting strategy equalizes policy gradients over noise conditions, preventing excessive updates from particular timestep regions. Together, these designs act as a regulated clipping mechanism, stabilizing optimization and substantially mitigating implicit over-optimization without relying on heavy KL regularization. Extensive experiments on multiple diffusion backbones (e.g., SD3.5M, Flux.1-dev) and diverse proxy tasks demonstrate that GRPO-Guard significantly reduces over-optimization while maintaining or even improving generation quality.

GRPO-Guard: Смягчение неявной сверхоптимизации в согласовании потоков с помощью регулируемого ограничения

GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping

Аннотация

Support