TempFlow-GRPO: Wanneer timing van belang is voor GRPO in stroommodellen

Samenvatting

Recente flow matching-modellen voor tekst-naar-beeldgeneratie hebben opmerkelijke kwaliteit bereikt, maar hun integratie met reinforcement learning voor afstemming op menselijke voorkeuren blijft suboptimaal, wat fijnmazige beloningsgebaseerde optimalisatie belemmert. Wij observeren dat de belangrijkste belemmering voor effectieve GRPO-training van flow-modellen de aanname van temporele uniformiteit in bestaande benaderingen is: schaarse terminale beloningen met uniforme krediettoewijzing slagen er niet in om de variërende kritiek van beslissingen over generatietijdstappen vast te leggen, wat resulteert in inefficiënte exploratie en suboptimale convergentie. Om dit tekort te verhelpen, introduceren we TempFlow-GRPO (Temporal Flow GRPO), een principieel GRPO-raamwerk dat de temporele structuur inherent aan flow-gebaseerde generatie vastlegt en benut. TempFlow-GRPO introduceert twee belangrijke innovaties: (i) een trajectvertakkingsmechanisme dat procesbeloningen biedt door stochastiek te concentreren op aangewezen vertakkingspunten, waardoor precieze krediettoewijzing mogelijk wordt zonder gespecialiseerde tussenliggende beloningsmodellen; en (ii) een ruisbewuste weegschema dat beleidsoptimalisatie moduleert volgens het intrinsieke exploratiepotentieel van elk tijdstap, waarbij leren wordt geprioriteerd tijdens impactvolle vroege fasen terwijl stabiele verfijning in latere fasen wordt gegarandeerd. Deze innovaties voorzien het model van temporeel bewuste optimalisatie die de onderliggende generatieve dynamiek respecteert, wat leidt tot state-of-the-art prestaties in afstemming op menselijke voorkeuren en standaard tekst-naar-beeldbenchmarks.

English

Recent flow matching models for text-to-image generation have achieved remarkable quality, yet their integration with reinforcement learning for human preference alignment remains suboptimal, hindering fine-grained reward-based optimization. We observe that the key impediment to effective GRPO training of flow models is the temporal uniformity assumption in existing approaches: sparse terminal rewards with uniform credit assignment fail to capture the varying criticality of decisions across generation timesteps, resulting in inefficient exploration and suboptimal convergence. To remedy this shortcoming, we introduce TempFlow-GRPO (Temporal Flow GRPO), a principled GRPO framework that captures and exploits the temporal structure inherent in flow-based generation. TempFlow-GRPO introduces two key innovations: (i) a trajectory branching mechanism that provides process rewards by concentrating stochasticity at designated branching points, enabling precise credit assignment without requiring specialized intermediate reward models; and (ii) a noise-aware weighting scheme that modulates policy optimization according to the intrinsic exploration potential of each timestep, prioritizing learning during high-impact early stages while ensuring stable refinement in later phases. These innovations endow the model with temporally-aware optimization that respects the underlying generative dynamics, leading to state-of-the-art performance in human preference alignment and standard text-to-image benchmarks.

TempFlow-GRPO: Wanneer timing van belang is voor GRPO in stroommodellen

TempFlow-GRPO: When Timing Matters for GRPO in Flow Models

Samenvatting

Support