ChatPaper.aiChatPaper

Flow-Based GRPOにおける段階的および長期的サンプリング効果のモデリングによる疎な報酬の軽減

Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPO

February 6, 2026
著者: Yunze Tong, Mushui Liu, Canyu Zhao, Wanggui He, Shiyi Zhang, Hongwei Zhang, Peng Zhang, Jinlong Liu, Ju Huang, Jiamang Wang, Hao Jiang, Pipei Huang
cs.AI

要旨

Flow MatchingモデルへのGRPOの適用は、テキストから画像への生成において有効性が実証されている。しかし、既存のパラダイムでは通常、結果ベースの報酬を全ての前処理ステップに伝播させており、各ステップの局所的効果を区別していない。さらに、現在のグループ単位のランキングは、主に同一時間ステップの軌道を比較するものであり、軌道内の依存関係を無視している。特定の初期のノイズ除去動作が、遅延した暗黙的な相互作用を通じて後続の状態に影響を与える可能性がある。我々は、ステップ単位の報酬の疎性を緩和し、ノイズ除去軌道内の長期的効果を明示的にモデル化するGRPOフレームワークであるTurningPoint-GRPO(TP-GRPO)を提案する。TP-GRPOは二つの重要な革新点を持つ:(i)結果ベースの報酬をステップレベルの増分報酬に置き換え、各ノイズ除去動作の「純粋な」効果をより良く分離する、密なステップ認識学習信号を提供する。(ii)転換点——局所的な報酬トレンドを反転させ、その後の報酬の変化を軌道全体のトレンドと一致させるステップ——を特定し、これらの動作に集約された長期的報酬を割り当て、その遅延影響を捕捉する。転換点は増分報酬の符号変化のみを通じて検出されるため、TP-GRPOは効率的でハイパーパラメータが不要である。大規模な実験により、TP-GRPOが報酬信号をより効果的に利用し、生成品質を一貫して向上させることも実証されている。デモコードはhttps://github.com/YunzeTong/TurningPoint-GRPO で公開されている。
English
Deploying GRPO on Flow Matching models has proven effective for text-to-image generation. However, existing paradigms typically propagate an outcome-based reward to all preceding denoising steps without distinguishing the local effect of each step. Moreover, current group-wise ranking mainly compares trajectories at matched timesteps and ignores within-trajectory dependencies, where certain early denoising actions can affect later states via delayed, implicit interactions. We propose TurningPoint-GRPO (TP-GRPO), a GRPO framework that alleviates step-wise reward sparsity and explicitly models long-term effects within the denoising trajectory. TP-GRPO makes two key innovations: (i) it replaces outcome-based rewards with step-level incremental rewards, providing a dense, step-aware learning signal that better isolates each denoising action's "pure" effect, and (ii) it identifies turning points-steps that flip the local reward trend and make subsequent reward evolution consistent with the overall trajectory trend-and assigns these actions an aggregated long-term reward to capture their delayed impact. Turning points are detected solely via sign changes in incremental rewards, making TP-GRPO efficient and hyperparameter-free. Extensive experiments also demonstrate that TP-GRPO exploits reward signals more effectively and consistently improves generation. Demo code is available at https://github.com/YunzeTong/TurningPoint-GRPO.
PDF412February 11, 2026