Het Verlichten van Schaarse Beloningen door Stapsgewijze en Langetermijn Steekproefeffecten te Modelleren in Stroomgebaseerd GRPO

Samenvatting

Het inzetten van GRPO op Flow Matching-modellen is effectief gebleken voor tekst-naar-beeldgeneratie. Bestaande paradigma's propageren echter typisch een op uitkomsten gebaseerde beloning naar alle voorgaande denoiseringsstappen zonder onderscheid te maken tussen het lokale effect van elke stap. Bovendien vergelijkt de huidige groepsgewijze rangschikking voornamelijk trajecten op overeenkomende tijdstappen en negeert het afhankelijkheden binnen trajecten, waarbij bepaalde vroege denoiseringsacties latere toestanden kunnen beïnvloeden via vertraagde, impliciete interacties. Wij stellen TurningPoint-GRPO (TP-GRPO) voor, een GRPO-raamwerk dat stapsgewijze beloningssparsiteit vermindert en expliciet langetermijneffecten binnen het denoiseringstraject modelleert. TP-GRPO introduceert twee belangrijke innovaties: (i) het vervangt op uitkomsten gebaseerde beloningen door incrementele beloningen op stapniveau, wat een dicht, stapbewust leersignaal oplevert dat het "pure" effect van elke denoiseringsactie beter isoleert, en (ii) het identificeert keerpunten—stappen die de lokale beloningstrend omkeren en de daaropvolgende beloningsevolutie consistent maken met de algehele trajecttrend—en kent aan deze acties een geaggregeerde langetermijnbeloning toe om hun vertraagde impact vast te leggen. Keerpunten worden uitsluitend gedetecteerd via tekenveranderingen in incrementele beloningen, waardoor TP-GRPO efficiënt en hyperparameter-vrij is. Uitgebreide experimenten tonen ook aan dat TP-GRPO beloningssignalen effectiever benut en de generatie consistent verbetert. Democode is beschikbaar op https://github.com/YunzeTong/TurningPoint-GRPO.

English

Deploying GRPO on Flow Matching models has proven effective for text-to-image generation. However, existing paradigms typically propagate an outcome-based reward to all preceding denoising steps without distinguishing the local effect of each step. Moreover, current group-wise ranking mainly compares trajectories at matched timesteps and ignores within-trajectory dependencies, where certain early denoising actions can affect later states via delayed, implicit interactions. We propose TurningPoint-GRPO (TP-GRPO), a GRPO framework that alleviates step-wise reward sparsity and explicitly models long-term effects within the denoising trajectory. TP-GRPO makes two key innovations: (i) it replaces outcome-based rewards with step-level incremental rewards, providing a dense, step-aware learning signal that better isolates each denoising action's "pure" effect, and (ii) it identifies turning points-steps that flip the local reward trend and make subsequent reward evolution consistent with the overall trajectory trend-and assigns these actions an aggregated long-term reward to capture their delayed impact. Turning points are detected solely via sign changes in incremental rewards, making TP-GRPO efficient and hyperparameter-free. Extensive experiments also demonstrate that TP-GRPO exploits reward signals more effectively and consistently improves generation. Demo code is available at https://github.com/YunzeTong/TurningPoint-GRPO.

Het Verlichten van Schaarse Beloningen door Stapsgewijze en Langetermijn Steekproefeffecten te Modelleren in Stroomgebaseerd GRPO

Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPO

Samenvatting

Support