ViPO: Оптимизация визуальных предпочтений в больших масштабах

Аннотация

Хотя оптимизация предпочтений крайне важна для улучшения визуальных генеративных моделей, вопрос эффективного масштабирования этой парадигмы остаётся малоизученным. Существующие открытые наборы данных предпочтений содержат противоречивые паттерны, где победители превосходят по одним параметрам, но уступают по другим. Простая оптимизация на таких зашумленных наборах данных не позволяет эффективно обучать предпочтениям, препятствуя масштабированию. Для повышения устойчивости к шуму мы предлагаем Poly-DPO, расширяющий цель DPO дополнительным полиномиальным членом, который динамически корректирует уверенность модели на основе характеристик набора данных, обеспечивая эффективное обучение на разнородных распределениях. Помимо смещённых паттернов, существующие наборы данных страдают от низкого разрешения, ограниченного разнообразия промптов и несбалансированных распределений. Для преодоления данных ограничений и содействия крупномасштабной оптимизации визуальных предпочтений мы создали ViPO — масштабный набор данных предпочтений, содержащий 1 млн пар изображений с разрешением 1024 пикселя по пяти категориям и 300 тыс. пар видео с разрешением 720p+ по трём категориям. Передовые генеративные модели и разнообразные промты обеспечивают достоверные сигналы предпочтений со сбалансированными распределениями. Примечательно, что при применении Poly-DPO к нашему качественному набору данных оптимальная конфигурация сходится к стандартному DPO. Эта сходимость подтверждает качество набора данных и адаптивную природу Poly-DPO: сложная оптимизация становится избыточной при достаточном качестве данных, но сохраняет ценность для неидеальных наборов. Мы проверили наш подход на различных моделях визуальной генерации. На зашумленных наборах данных, таких как Pick-a-Pic V2, Poly-DPO демонстрирует улучшение на 6,87 и 2,32 балла по сравнению с Diffusion-DPO на GenEval для SD1.5 и SDXL соответственно. Для ViPO модели достигают результатов, значительно превосходящих модели, обученные на существующих открытых наборах данных предпочтений. Эти результаты подтверждают, что одновременное решение задач алгоритмической адаптивности и качества данных необходимо для масштабирования оптимизации визуальных предпочтений.

English

While preference optimization is crucial for improving visual generative models, how to effectively scale this paradigm remains largely unexplored. Current open-source preference datasets contain conflicting preference patterns, where winners excel in some dimensions but underperform in others. Naively optimizing on such noisy datasets fails to learn preferences, hindering effective scaling. To enhance robustness against noise, we propose Poly-DPO, which extends the DPO objective with an additional polynomial term that dynamically adjusts model confidence based on dataset characteristics, enabling effective learning across diverse data distributions. Beyond biased patterns, existing datasets suffer from low resolution, limited prompt diversity, and imbalanced distributions. To facilitate large-scale visual preference optimization by tackling data bottlenecks, we construct ViPO, a massive-scale preference dataset with 1M image pairs at 1024px across five categories and 300K video pairs at 720p+ across three categories. State-of-the-art generative models and diverse prompts ensure reliable preference signals with balanced distributions. Remarkably, when applying Poly-DPO to our high-quality dataset, the optimal configuration converges to standard DPO. This convergence validates dataset quality and Poly-DPO's adaptive nature: sophisticated optimization becomes unnecessary with sufficient data quality, yet remains valuable for imperfect datasets. We validate our approach across visual generation models. On noisy datasets like Pick-a-Pic V2, Poly-DPO achieves 6.87 and 2.32 gains over Diffusion-DPO on GenEval for SD1.5 and SDXL, respectively. For ViPO, models achieve performance far exceeding those trained on existing open-source preference datasets. These results confirm that addressing both algorithmic adaptability and data quality is essential for scaling visual preference optimization.

ViPO: Оптимизация визуальных предпочтений в больших масштабах

ViPO: Visual Preference Optimization at Scale

Аннотация

Support