Do Esparso ao Denso: GRPO Multi-Visão para Modelos de Fluxo via Espaço de Condições Aumentado

Resumo

O Group Relative Policy Optimization (GRPO) emergiu como uma estrutura poderosa para o alinhamento de preferências em modelos de fluxo texto-imagem (T2I). No entanto, observamos que o paradigma padrão, que avalia um grupo de amostras geradas em relação a uma única condição, sofre de uma exploração insuficiente das relações inter-amostras, limitando tanto a eficácia do alinhamento quanto os tetos de desempenho. Para abordar este esquema esparso de avaliação de visão única, propomos o Multi-View GRPO (MV-GRPO), uma nova abordagem que melhora a exploração de relações através do aumento do espaço de condições para criar um mapeamento de recompensa denso e multi-vista. Especificamente, para um grupo de amostras geradas a partir de um *prompt*, o MV-GRPO aproveita um **Condition Enhancer** (Potencializador de Condição) flexível para gerar legendas semanticamente adjacentes, porém diversas. Estas legendas permitem uma reestimação multi-vista da vantagem, capturando diversos atributos semânticos e fornecendo sinais de otimização mais ricos. Ao derivar a distribuição de probabilidade das amostras originais condicionadas a estas novas legendas, podemos incorporá-las no processo de treinamento sem a necessidade de uma custosa regeneração de amostras. Experimentos extensivos demonstram que o MV-GRPO alcança um desempenho de alinhamento superior aos métodos state-of-the-art.

English

Group Relative Policy Optimization (GRPO) has emerged as a powerful framework for preference alignment in text-to-image (T2I) flow models. However, we observe that the standard paradigm where evaluating a group of generated samples against a single condition suffers from insufficient exploration of inter-sample relationships, constraining both alignment efficacy and performance ceilings. To address this sparse single-view evaluation scheme, we propose Multi-View GRPO (MV-GRPO), a novel approach that enhances relationship exploration by augmenting the condition space to create a dense multi-view reward mapping. Specifically, for a group of samples generated from one prompt, MV-GRPO leverages a flexible Condition Enhancer to generate semantically adjacent yet diverse captions. These captions enable multi-view advantage re-estimation, capturing diverse semantic attributes and providing richer optimization signals. By deriving the probability distribution of the original samples conditioned on these new captions, we can incorporate them into the training process without costly sample regeneration. Extensive experiments demonstrate that MV-GRPO achieves superior alignment performance over state-of-the-art methods.

Do Esparso ao Denso: GRPO Multi-Visão para Modelos de Fluxo via Espaço de Condições Aumentado

From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Space

Resumo

Support