Смягчение проблемы разреженных вознаграждений за счет моделирования пошаговых и долгосрочных эффектов сэмплирования в потоковом GRPO
Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPO
February 6, 2026
Авторы: Yunze Tong, Mushui Liu, Canyu Zhao, Wanggui He, Shiyi Zhang, Hongwei Zhang, Peng Zhang, Jinlong Liu, Ju Huang, Jiamang Wang, Hao Jiang, Pipei Huang
cs.AI
Аннотация
Развертывание метода GRPO на моделях Flow Matching доказало свою эффективность для задач генерации изображений по тексту. Однако существующие подходы обычно распространяют награду, основанную на конечном результате, на все предшествующие шаги денизинга, не различая локальный вклад каждого шага. Более того, текущее групповое ранжирование в основном сравнивает траектории на совпадающих временных шагах и игнорирует зависимости внутри траектории, когда определенные действия на ранних этапах денизинга могут влиять на последующие состояния через отсроченные, неявные взаимодействия. Мы предлагаем TurningPoint-GRPO (TP-GRPO) — фреймворк GRPO, который смягчает разреженность пошагового вознаграждения и явно моделирует долгосрочные эффекты внутри траектории денизинга. TP-GRPO вносит два ключевых нововведения: (i) он заменяет награды, основанные на результате, на инкрементные пошаговые награды, обеспечивая плотный, учитывающий шаг сигнал обучения, который лучше изолирует «чистый» эффект каждого действия денизинга, и (ii) он идентифицирует точки поворота — шаги, на которых меняется локальный тренд награды и последующая эволюция награды начинает соответствовать общему тренду траектории — и присваивает этим действиям агрегированную долгосрочную награду, чтобы учесть их отсроченное влияние. Точки поворота обнаруживаются исключительно через изменения знака инкрементных наград, что делает TP-GRPO эффективным и свободным от гиперпараметров. Многочисленные эксперименты также демонстрируют, что TP-GRPO использует сигналы вознаграждения более эффективно и стабильно улучшает качество генерации. Демонстрационный код доступен по адресу https://github.com/YunzeTong/TurningPoint-GRPO.
English
Deploying GRPO on Flow Matching models has proven effective for text-to-image generation. However, existing paradigms typically propagate an outcome-based reward to all preceding denoising steps without distinguishing the local effect of each step. Moreover, current group-wise ranking mainly compares trajectories at matched timesteps and ignores within-trajectory dependencies, where certain early denoising actions can affect later states via delayed, implicit interactions. We propose TurningPoint-GRPO (TP-GRPO), a GRPO framework that alleviates step-wise reward sparsity and explicitly models long-term effects within the denoising trajectory. TP-GRPO makes two key innovations: (i) it replaces outcome-based rewards with step-level incremental rewards, providing a dense, step-aware learning signal that better isolates each denoising action's "pure" effect, and (ii) it identifies turning points-steps that flip the local reward trend and make subsequent reward evolution consistent with the overall trajectory trend-and assigns these actions an aggregated long-term reward to capture their delayed impact. Turning points are detected solely via sign changes in incremental rewards, making TP-GRPO efficient and hyperparameter-free. Extensive experiments also demonstrate that TP-GRPO exploits reward signals more effectively and consistently improves generation. Demo code is available at https://github.com/YunzeTong/TurningPoint-GRPO.