Da Sparso a Denso: GRPO Multi-Vista per Modelli di Flusso tramite Spazio delle Condizioni Aumentato

Abstract

L'ottimizzazione delle politiche relative ai gruppi (GRPO) è emersa come un potente framework per l'allineamento delle preferenze nei modelli di flusso testo-immagine (T2I). Tuttavia, osserviamo che il paradigma standard, in cui si valuta un gruppo di campioni generati rispetto a una singola condizione, soffre di un'esplorazione insufficiente delle relazioni inter-campione, limitando sia l'efficacia dell'allineamento che i limiti prestazionali. Per affrontare questo schema di valutazione sparsa a vista singola, proponiamo la GRPO multi-vista (MV-GRPO), un approccio innovativo che migliora l'esplorazione delle relazioni aumentando lo spazio delle condizioni per creare una mappa di reward densa e multi-vista. Nello specifico, per un gruppo di campioni generati da un prompt, MV-GRPO utilizza un Potenziatore di Condizioni flessibile per generare didascalie semanticamente adiacenti ma diversificate. Queste didascalie consentono una nuova stima del vantaggio multi-vista, catturando attributi semantici diversificati e fornendo segnali di ottimizzazione più ricchi. Derivando la distribuzione di probabilità dei campioni originali condizionata a queste nuove didascalie, possiamo incorporarle nel processo di addestramento senza il costo computazionale della rigenerazione dei campioni. Esperimenti estensivi dimostrano che MV-GRPO raggiunge prestazioni di allineamento superiori rispetto ai metodi all'avanguardia.

English

Group Relative Policy Optimization (GRPO) has emerged as a powerful framework for preference alignment in text-to-image (T2I) flow models. However, we observe that the standard paradigm where evaluating a group of generated samples against a single condition suffers from insufficient exploration of inter-sample relationships, constraining both alignment efficacy and performance ceilings. To address this sparse single-view evaluation scheme, we propose Multi-View GRPO (MV-GRPO), a novel approach that enhances relationship exploration by augmenting the condition space to create a dense multi-view reward mapping. Specifically, for a group of samples generated from one prompt, MV-GRPO leverages a flexible Condition Enhancer to generate semantically adjacent yet diverse captions. These captions enable multi-view advantage re-estimation, capturing diverse semantic attributes and providing richer optimization signals. By deriving the probability distribution of the original samples conditioned on these new captions, we can incorporate them into the training process without costly sample regeneration. Extensive experiments demonstrate that MV-GRPO achieves superior alignment performance over state-of-the-art methods.

Da Sparso a Denso: GRPO Multi-Vista per Modelli di Flusso tramite Spazio delle Condizioni Aumentato

From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Space

Abstract

Support