Von spärlich zu dicht: Multi-View-GRPO für Flussmodelle durch erweiterten Konditionsraum

Zusammenfassung

Group Relative Policy Optimization (GRPO) hat sich als leistungsstarkes Framework für die Präferenzabstimmung in Text-zu-Bild (T2I) Flow-Modellen etabliert. Wir beobachten jedoch, dass das Standardparadigma, bei dem eine Gruppe generierter Samples an einer einzigen Bedingung evaluiert wird, unter einer unzureichenden Exploration der Beziehungen zwischen den Samples leidet, was sowohl die Abstimmungseffizienz als auch die Leistungsobergrenze einschränkt. Um dieses spärliche Single-View-Bewertungsschema zu adressieren, schlagen wir Multi-View GRPO (MV-GRPO) vor, einen neuartigen Ansatz, der die Beziehungsexploration verbessert, indem der Bedingungsraum erweitert wird, um eine dichte Multi-View-Belohnungsabbildung zu schaffen. Konkret nutzt MV-GRPO für eine Gruppe von Samples, die aus einem Prompt generiert wurden, einen flexiblen Condition Enhancer, um semantisch benachbarte yet diverse Bildbeschreibungen zu erzeugen. Diese Beschreibungen ermöglichen eine Multi-View-Vorteilsneuschätzung, die diverse semantische Attribute erfasst und reichhaltigere Optimierungssignale liefert. Indem wir die Wahrscheinlichkeitsverteilung der ursprünglichen Samples bedingt unter diesen neuen Beschreibungen ableiten, können wir diese ohne kostspielige Neugenerierung von Samples in den Trainingsprozess integrieren. Umfangreiche Experimente belegen, dass MV-GRPO eine überlegene Abstimmungsleistung gegenüber state-of-the-art Methoden erzielt.

English

Group Relative Policy Optimization (GRPO) has emerged as a powerful framework for preference alignment in text-to-image (T2I) flow models. However, we observe that the standard paradigm where evaluating a group of generated samples against a single condition suffers from insufficient exploration of inter-sample relationships, constraining both alignment efficacy and performance ceilings. To address this sparse single-view evaluation scheme, we propose Multi-View GRPO (MV-GRPO), a novel approach that enhances relationship exploration by augmenting the condition space to create a dense multi-view reward mapping. Specifically, for a group of samples generated from one prompt, MV-GRPO leverages a flexible Condition Enhancer to generate semantically adjacent yet diverse captions. These captions enable multi-view advantage re-estimation, capturing diverse semantic attributes and providing richer optimization signals. By deriving the probability distribution of the original samples conditioned on these new captions, we can incorporate them into the training process without costly sample regeneration. Extensive experiments demonstrate that MV-GRPO achieves superior alignment performance over state-of-the-art methods.

Von spärlich zu dicht: Multi-View-GRPO für Flussmodelle durch erweiterten Konditionsraum

From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Space

Zusammenfassung

Support