Van Sparse naar Dicht: Multi-View GRPO voor Stroommodellen via een Uitgebreide Conditieruimte

Samenvatting

Group Relative Policy Optimization (GRPO) is naar voren gekomen als een krachtig kader voor voorkeursafstemming in tekst-naar-beeld (T2I) stroommodellen. Wij observeren echter dat het standaardparadigma, waarbij een groep gegenereerde samples wordt geëvalueerd tegen een enkele conditie, lijdt onder een onvoldoende verkenning van de onderlinge relaties tussen samples, wat zowel de afstemmingseffectiviteit als de prestatieplafonds beperkt. Om dit schaarse evaluatieschema met enkelvoudig perspectief aan te pakken, stellen wij Multi-View GRPO (MV-GRPO) voor, een nieuwe aanpak die de verkenning van relaties verbetert door de conditieruimte uit te breiden om een dichte beloningsmapping met meerdere perspectieven te creëren. Specifiek benut MV-GRPO voor een groep samples gegenereerd vanuit één prompt een flexibele Condition Enhancer om semantisch verwante doch diverse bijschriften te genereren. Deze bijschriften maken een herschatting van het voordeel vanuit meerdere perspectieven mogelijk, waarbij diverse semantische attributen worden vastgelegd en rijkere optimalisatiesignalen worden verschaft. Door de kansverdeling van de oorspronkelijke samples conditioneel op deze nieuwe bijschriften af te leiden, kunnen deze worden geïntegreerd in het trainingsproces zonder kostbare hergeneratie van samples. Uitgebreide experimenten tonen aan dat MV-GRPO een superieure afstemmingsprestatie bereikt in vergelijking met state-of-the-art methoden.

English

Group Relative Policy Optimization (GRPO) has emerged as a powerful framework for preference alignment in text-to-image (T2I) flow models. However, we observe that the standard paradigm where evaluating a group of generated samples against a single condition suffers from insufficient exploration of inter-sample relationships, constraining both alignment efficacy and performance ceilings. To address this sparse single-view evaluation scheme, we propose Multi-View GRPO (MV-GRPO), a novel approach that enhances relationship exploration by augmenting the condition space to create a dense multi-view reward mapping. Specifically, for a group of samples generated from one prompt, MV-GRPO leverages a flexible Condition Enhancer to generate semantically adjacent yet diverse captions. These captions enable multi-view advantage re-estimation, capturing diverse semantic attributes and providing richer optimization signals. By deriving the probability distribution of the original samples conditioned on these new captions, we can incorporate them into the training process without costly sample regeneration. Extensive experiments demonstrate that MV-GRPO achieves superior alignment performance over state-of-the-art methods.

Van Sparse naar Dicht: Multi-View GRPO voor Stroommodellen via een Uitgebreide Conditieruimte

From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Space

Samenvatting

Support