Du parcimonieux au dense : GRPO multi-vues pour les modèles de flux via un espace de conditions augmenté

Résumé

L'Optimisation Relative des Politiques par Groupe (GRPO) est apparue comme un cadre puissant pour l'alignement des préférences dans les modèles de flux texte-image (T2I). Cependant, nous observons que le paradigme standard, qui consiste à évaluer un groupe d'échantillons générés par rapport à une seule condition, souffre d'une exploration insuffisante des relations inter-échantillons, limitant à la fois l'efficacité de l'alignement et les plafonds de performance. Pour remédier à ce schéma d'évaluation parcellaire à vue unique, nous proposons la GRPO Multi-Vues (MV-GRPO), une approche novatrice qui améliore l'exploration des relations en augmentant l'espace des conditions pour créer un mapping de récompense dense et multi-vues. Plus précisément, pour un groupe d'échantillons générés à partir d'une même instruction, MV-GRPO exploite un Renforçateur de Condition flexible pour générer des légendes sémantiquement adjacentes mais diverses. Ces légendes permettent une ré-estimation multi-vues de l'avantage, capturant des attributs sémantiques variés et fournissant des signaux d'optimisation plus riches. En dérivant la distribution de probabilité des échantillons originaux conditionnés par ces nouvelles légendes, nous pouvons les intégrer au processus d'entraînement sans coûteuse régénération d'échantillons. Des expériences approfondies démontrent que MV-GRPO atteint des performances d'alignement supérieures aux méthodes de l'état de l'art.

English

Group Relative Policy Optimization (GRPO) has emerged as a powerful framework for preference alignment in text-to-image (T2I) flow models. However, we observe that the standard paradigm where evaluating a group of generated samples against a single condition suffers from insufficient exploration of inter-sample relationships, constraining both alignment efficacy and performance ceilings. To address this sparse single-view evaluation scheme, we propose Multi-View GRPO (MV-GRPO), a novel approach that enhances relationship exploration by augmenting the condition space to create a dense multi-view reward mapping. Specifically, for a group of samples generated from one prompt, MV-GRPO leverages a flexible Condition Enhancer to generate semantically adjacent yet diverse captions. These captions enable multi-view advantage re-estimation, capturing diverse semantic attributes and providing richer optimization signals. By deriving the probability distribution of the original samples conditioned on these new captions, we can incorporate them into the training process without costly sample regeneration. Extensive experiments demonstrate that MV-GRPO achieves superior alignment performance over state-of-the-art methods.

Du parcimonieux au dense : GRPO multi-vues pour les modèles de flux via un espace de conditions augmenté

From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Space

Résumé

Support