De Disperso a Denso: GRPO Multi-Vista para Modelos de Flujo mediante Espacio de Condición Aumentado

Resumen

La Optimización de Políticas Relativas a Grupos (GRPO) ha surgido como un marco poderoso para la alineación de preferencias en modelos de flujo texto-imagen (T2I). Sin embargo, observamos que el paradigma estándar, que evalúa un grupo de muestras generadas frente a una única condición, adolece de una exploración insuficiente de las relaciones entre muestras, lo que limita tanto la eficacia de la alineación como los límites de rendimiento. Para abordar este esquema de evaluación escaso y de vista única, proponemos GRPO Multi-Vista (MV-GRPO), un enfoque novedoso que mejora la exploración de relaciones mediante la ampliación del espacio de condiciones para crear un mapeo de recompensas denso y multi-vista. Específicamente, para un grupo de muestras generadas a partir de un *prompt*, MV-GRPO aprovecha un Mejorador de Condiciones flexible para generar descripciones semánticamente adyacentes pero diversas. Estas descripciones permiten una reestimación multi-vista de la ventaja, capturando diversos atributos semánticos y proporcionando señales de optimización más ricas. Al derivar la distribución de probabilidad de las muestras originales condicionadas a estas nuevas descripciones, podemos incorporarlas al proceso de entrenamiento sin el costoso proceso de regeneración de muestras. Experimentos exhaustivos demuestran que MV-GRPO logra un rendimiento de alineación superior al de los métodos más avanzados.

English

Group Relative Policy Optimization (GRPO) has emerged as a powerful framework for preference alignment in text-to-image (T2I) flow models. However, we observe that the standard paradigm where evaluating a group of generated samples against a single condition suffers from insufficient exploration of inter-sample relationships, constraining both alignment efficacy and performance ceilings. To address this sparse single-view evaluation scheme, we propose Multi-View GRPO (MV-GRPO), a novel approach that enhances relationship exploration by augmenting the condition space to create a dense multi-view reward mapping. Specifically, for a group of samples generated from one prompt, MV-GRPO leverages a flexible Condition Enhancer to generate semantically adjacent yet diverse captions. These captions enable multi-view advantage re-estimation, capturing diverse semantic attributes and providing richer optimization signals. By deriving the probability distribution of the original samples conditioned on these new captions, we can incorporate them into the training process without costly sample regeneration. Extensive experiments demonstrate that MV-GRPO achieves superior alignment performance over state-of-the-art methods.

De Disperso a Denso: GRPO Multi-Vista para Modelos de Flujo mediante Espacio de Condición Aumentado

From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Space

Resumen

Support