От разреженного к плотному: многовидовой GRPO для потоковых моделей через расширенное пространство условий

Аннотация

Метод оптимизации политики относительно группы (GRPO) зарекомендовал себя как мощный фреймворк для согласования предпочтений в потоковых моделях "текст-изображение". Однако мы наблюдаем, что стандартная парадигма, при которой группа сгенерированных образцов оценивается по единственному условию, страдает от недостаточного исследования взаимосвязей между образцами, что ограничивает как эффективность согласования, так и потолок производительности. Для преодоления этой разреженной схемы оценки с единой точки зрения мы предлагаем Многовидовой GRPO (MV-GRPO) — новый подход, который усиливает исследование взаимосвязей за счет расширения пространства условий для создания плотного многовидового отображения вознаграждений. В частности, для группы образцов, сгенерированных по одному промпту, MV-GRPO использует гибкий Усилитель Условий для генерации семантически смежных, но разнообразных описаний. Эти описания позволяют выполнить повторную оценку преимуществ с нескольких точек зрения, выявляя разнообразные семантические атрибуты и предоставляя более богатые сигналы для оптимизации. Вычисляя распределение вероятностей исходных образцов при условии этих новых описаний, мы можем включить их в процесс обучения без затратной перегенерации образцов. Многочисленные эксперименты демонстрируют, что MV-GRPO достигает превосходной производительности в согласовании по сравнению с передовыми методами.

English

Group Relative Policy Optimization (GRPO) has emerged as a powerful framework for preference alignment in text-to-image (T2I) flow models. However, we observe that the standard paradigm where evaluating a group of generated samples against a single condition suffers from insufficient exploration of inter-sample relationships, constraining both alignment efficacy and performance ceilings. To address this sparse single-view evaluation scheme, we propose Multi-View GRPO (MV-GRPO), a novel approach that enhances relationship exploration by augmenting the condition space to create a dense multi-view reward mapping. Specifically, for a group of samples generated from one prompt, MV-GRPO leverages a flexible Condition Enhancer to generate semantically adjacent yet diverse captions. These captions enable multi-view advantage re-estimation, capturing diverse semantic attributes and providing richer optimization signals. By deriving the probability distribution of the original samples conditioned on these new captions, we can incorporate them into the training process without costly sample regeneration. Extensive experiments demonstrate that MV-GRPO achieves superior alignment performance over state-of-the-art methods.

От разреженного к плотному: многовидовой GRPO для потоковых моделей через расширенное пространство условий

From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Space

Аннотация

Support