ChatPaper.aiChatPaper

유동 기반 GRPO에서 단계적 및 장기적 샘플링 효과 모델링을 통한 희소 보상 완화

Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPO

February 6, 2026
저자: Yunze Tong, Mushui Liu, Canyu Zhao, Wanggui He, Shiyi Zhang, Hongwei Zhang, Peng Zhang, Jinlong Liu, Ju Huang, Jiamang Wang, Hao Jiang, Pipei Huang
cs.AI

초록

GRPO를 Flow Matching 모델에 적용하는 것은 텍스트-이미지 생성에 효과적인 것으로 입증되었습니다. 그러나 기존 패러다임은 일반적으로 결과 기반 보상을 모든 선행 노이즈 제거 단계에 전파할 뿐, 각 단계의 지역적 효과를 구분하지 않습니다. 더욱이 현재의 그룹 단위 순위 지정은 주로 일치하는 시간 단계에서의 trajectory를 비교하며, 특정 초기 노이즈 제거 작업이 지연되고 암시적인 상호작용을 통해 후기 상태에 영향을 미칠 수 있는 trajectory 내 종속성을 간과합니다. 우리는 단계별 보상 희소성을 완화하고 노이즈 제거 trajectory 내 장기적 효과를 명시적으로 모델링하는 GRPO 프레임워크인 TurningPoint-GRPO(TP-GRPO)를 제안합니다. TP-GRPO는 두 가지 핵심 혁신을 도입합니다: (i) 결과 기반 보상을 단계 수준의 증분 보상으로 대체하여 각 노이즈 제거 작업의 '순수' 효과를 더 잘 분리하는 조밀하고 단계 인식 학습 신호를 제공하며, (ii) 지역적 보상 추세를 반전시키고 후속 보상 진화를 전체 trajectory 추세와 일관되게 만드는 단계인 turning point를 식별하여 이러한 작업에 지연된 영향을 포착하기 위해 집계된 장기 보상을 할당합니다. Turning point는 증분 보상의 부호 변화만을 통해 감지되므로 TP-GRPO는 효율적이고 하이퍼파라미터가 필요 없습니다. 폭넓은 실험을 통해 TP-GRPO가 보상 신호를 더 효과적으로 활용하고 생성 품질을 일관적으로 개선함을 입증하였습니다. 데모 코드는 https://github.com/YunzeTong/TurningPoint-GRPO에서 확인할 수 있습니다.
English
Deploying GRPO on Flow Matching models has proven effective for text-to-image generation. However, existing paradigms typically propagate an outcome-based reward to all preceding denoising steps without distinguishing the local effect of each step. Moreover, current group-wise ranking mainly compares trajectories at matched timesteps and ignores within-trajectory dependencies, where certain early denoising actions can affect later states via delayed, implicit interactions. We propose TurningPoint-GRPO (TP-GRPO), a GRPO framework that alleviates step-wise reward sparsity and explicitly models long-term effects within the denoising trajectory. TP-GRPO makes two key innovations: (i) it replaces outcome-based rewards with step-level incremental rewards, providing a dense, step-aware learning signal that better isolates each denoising action's "pure" effect, and (ii) it identifies turning points-steps that flip the local reward trend and make subsequent reward evolution consistent with the overall trajectory trend-and assigns these actions an aggregated long-term reward to capture their delayed impact. Turning points are detected solely via sign changes in incremental rewards, making TP-GRPO efficient and hyperparameter-free. Extensive experiments also demonstrate that TP-GRPO exploits reward signals more effectively and consistently improves generation. Demo code is available at https://github.com/YunzeTong/TurningPoint-GRPO.
PDF412February 11, 2026