ViPO : Optimisation des Préférences Visuelles à Grande Échelle

Résumé

Bien que l'optimisation des préférences soit cruciale pour l'amélioration des modèles génératifs visuels, la manière de mettre efficacement à l'échelle ce paradigme reste largement inexplorée. Les ensembles de données de préférences open-source actuels contiennent des schémas de préférences conflictuels, où les éléments gagnants excellent dans certaines dimensions mais sont moins performants dans d'autres. Optimiser naïvement sur de tels ensembles de données bruités ne permet pas d'apprendre les préférences, entravant une mise à l'échelle efficace. Pour renforcer la robustesse au bruit, nous proposons Poly-DPO, qui étend l'objectif DPO avec un terme polynomial supplémentaire ajustant dynamiquement la confiance du modèle en fonction des caractéristiques de l'ensemble de données, permettant un apprentissage efficace sur des distributions de données diverses. Au-delà des biais, les ensembles de données existants souffrent d'une faible résolution, d'une diversité limitée des prompts et de distributions déséquilibrées. Pour faciliter l'optimisation des préférences visuelles à grande échelle en relevant les goulots d'étranglement des données, nous construisons ViPO, un ensemble de données de préférences à grande échelle comprenant 1 million de paires d'images en 1024px sur cinq catégories et 300 000 paires vidéo en 720p+ sur trois catégories. Des modèles génératifs de pointe et des prompts diversifiés garantissent des signaux de préférence fiables avec des distributions équilibrées. Fait remarquable, lors de l'application de Poly-DPO à notre ensemble de données de haute qualité, la configuration optimale converge vers le DPO standard. Cette convergence valide la qualité de l'ensemble de données et la nature adaptive de Poly-DPO : une optimisation sophistiquée devient superflue avec une qualité de données suffisante, mais reste précieuse pour des ensembles de données imparfaits. Nous validons notre approche sur divers modèles de génération visuelle. Sur des ensembles de données bruités comme Pick-a-Pic V2, Poly-DPO obtient des gains de 6,87 et 2,32 par rapport à Diffusion-DPO sur GenEval pour SD1.5 et SDXL, respectivement. Pour ViPO, les modèles atteignent des performances dépassant largement celles entraînées sur les ensembles de données de préférences open-source existants. Ces résultats confirment qu'il est essentiel de traiter à la fois l'adaptabilité algorithmique et la qualité des données pour mettre à l'échelle l'optimisation des préférences visuelles.

English

While preference optimization is crucial for improving visual generative models, how to effectively scale this paradigm remains largely unexplored. Current open-source preference datasets contain conflicting preference patterns, where winners excel in some dimensions but underperform in others. Naively optimizing on such noisy datasets fails to learn preferences, hindering effective scaling. To enhance robustness against noise, we propose Poly-DPO, which extends the DPO objective with an additional polynomial term that dynamically adjusts model confidence based on dataset characteristics, enabling effective learning across diverse data distributions. Beyond biased patterns, existing datasets suffer from low resolution, limited prompt diversity, and imbalanced distributions. To facilitate large-scale visual preference optimization by tackling data bottlenecks, we construct ViPO, a massive-scale preference dataset with 1M image pairs at 1024px across five categories and 300K video pairs at 720p+ across three categories. State-of-the-art generative models and diverse prompts ensure reliable preference signals with balanced distributions. Remarkably, when applying Poly-DPO to our high-quality dataset, the optimal configuration converges to standard DPO. This convergence validates dataset quality and Poly-DPO's adaptive nature: sophisticated optimization becomes unnecessary with sufficient data quality, yet remains valuable for imperfect datasets. We validate our approach across visual generation models. On noisy datasets like Pick-a-Pic V2, Poly-DPO achieves 6.87 and 2.32 gains over Diffusion-DPO on GenEval for SD1.5 and SDXL, respectively. For ViPO, models achieve performance far exceeding those trained on existing open-source preference datasets. These results confirm that addressing both algorithmic adaptability and data quality is essential for scaling visual preference optimization.

ViPO : Optimisation des Préférences Visuelles à Grande Échelle

ViPO: Visual Preference Optimization at Scale

Résumé

Support