TempFlow-GRPO: Wanneer timing van belang is voor GRPO in stroommodellen
TempFlow-GRPO: When Timing Matters for GRPO in Flow Models
August 6, 2025
Auteurs: Xiaoxuan He, Siming Fu, Yuke Zhao, Wanli Li, Jian Yang, Dacheng Yin, Fengyun Rao, Bo Zhang
cs.AI
Samenvatting
Recente flow matching-modellen voor tekst-naar-beeldgeneratie hebben opmerkelijke kwaliteit bereikt, maar hun integratie met reinforcement learning voor afstemming op menselijke voorkeuren blijft suboptimaal, wat fijnmazige beloningsgebaseerde optimalisatie belemmert. Wij observeren dat de belangrijkste belemmering voor effectieve GRPO-training van flow-modellen de aanname van temporele uniformiteit in bestaande benaderingen is: schaarse terminale beloningen met uniforme krediettoewijzing slagen er niet in om de variërende kritiek van beslissingen over generatietijdstappen vast te leggen, wat resulteert in inefficiënte exploratie en suboptimale convergentie. Om dit tekort te verhelpen, introduceren we TempFlow-GRPO (Temporal Flow GRPO), een principieel GRPO-raamwerk dat de temporele structuur inherent aan flow-gebaseerde generatie vastlegt en benut. TempFlow-GRPO introduceert twee belangrijke innovaties: (i) een trajectvertakkingsmechanisme dat procesbeloningen biedt door stochastiek te concentreren op aangewezen vertakkingspunten, waardoor precieze krediettoewijzing mogelijk wordt zonder gespecialiseerde tussenliggende beloningsmodellen; en (ii) een ruisbewuste weegschema dat beleidsoptimalisatie moduleert volgens het intrinsieke exploratiepotentieel van elk tijdstap, waarbij leren wordt geprioriteerd tijdens impactvolle vroege fasen terwijl stabiele verfijning in latere fasen wordt gegarandeerd. Deze innovaties voorzien het model van temporeel bewuste optimalisatie die de onderliggende generatieve dynamiek respecteert, wat leidt tot state-of-the-art prestaties in afstemming op menselijke voorkeuren en standaard tekst-naar-beeldbenchmarks.
English
Recent flow matching models for text-to-image generation have achieved
remarkable quality, yet their integration with reinforcement learning for human
preference alignment remains suboptimal, hindering fine-grained reward-based
optimization. We observe that the key impediment to effective GRPO training of
flow models is the temporal uniformity assumption in existing approaches:
sparse terminal rewards with uniform credit assignment fail to capture the
varying criticality of decisions across generation timesteps, resulting in
inefficient exploration and suboptimal convergence. To remedy this shortcoming,
we introduce TempFlow-GRPO (Temporal Flow GRPO), a principled GRPO
framework that captures and exploits the temporal structure inherent in
flow-based generation. TempFlow-GRPO introduces two key innovations: (i) a
trajectory branching mechanism that provides process rewards by concentrating
stochasticity at designated branching points, enabling precise credit
assignment without requiring specialized intermediate reward models; and (ii) a
noise-aware weighting scheme that modulates policy optimization according to
the intrinsic exploration potential of each timestep, prioritizing learning
during high-impact early stages while ensuring stable refinement in later
phases. These innovations endow the model with temporally-aware optimization
that respects the underlying generative dynamics, leading to state-of-the-art
performance in human preference alignment and standard text-to-image
benchmarks.