ViPO: Ottimizzazione delle Preferenze Visive su Larga Scala

Abstract

Sebbene l'ottimizzazione delle preferenze sia cruciale per migliorare i modelli generativi visivi, come scalare efficacemente questo paradigma rimane in gran parte inesplorato. I dataset open-source esistenti sulle preferenze contengono pattern contrastanti, in cui i vincitori eccellono in alcune dimensioni ma sotto-performano in altre. Ottimizzare in modo ingenuo su dataset così rumorosi non permette di apprendere le preferenze, ostacolando una scalata efficace. Per aumentare la robustezza al rumore, proponiamo Poly-DPO, che estende l'obiettivo DPO con un termine polinomiale aggiuntivo che regola dinamicamente la confidenza del modello in base alle caratteristiche del dataset, consentendo un apprendimento efficace su distribuzioni di dati diverse. Oltre ai pattern distorti, i dataset esistenti soffrono di bassa risoluzione, scarsa diversità dei prompt e distribuzioni sbilanciate. Per facilitare l'ottimizzazione su larga scala delle preferenze visive affrontando i colli di bottiglia dei dati, abbiamo costruito ViPO, un dataset di preferenze di massa con 1M di coppie di immagini a 1024px in cinque categorie e 300K coppie video a 720p+ in tre categorie. Modelli generativi all'avanguardia e prompt diversificati garantiscono segnali di preferenza affidabili con distribuzioni bilanciate. Notevolmente, applicando Poly-DPO al nostro dataset di alta qualità, la configurazione ottimale converge al DPO standard. Questa convergenza valida la qualità del dataset e la natura adattiva di Poly-DPO: l'ottimizzazione sofisticata diventa superflua con dati di sufficiente qualità, ma rimane preziosa per dataset imperfetti. Convalidiamo il nostro approccio su vari modelli di generazione visiva. Su dataset rumorosi come Pick-a-Pic V2, Poly-DPO ottiene guadagni di 6.87 e 2.32 rispetto a Diffusion-DPO su GenEval per SD1.5 e SDXL, rispettivamente. Per ViPO, i modelli raggiungono prestazioni di gran lunga superiori a quelle addestrate su dataset open-source esistenti. Questi risultati confermano che affrontare sia l'adattabilità algoritmica che la qualità dei dati è essenziale per scalare l'ottimizzazione delle preferenze visive.

English

While preference optimization is crucial for improving visual generative models, how to effectively scale this paradigm remains largely unexplored. Current open-source preference datasets contain conflicting preference patterns, where winners excel in some dimensions but underperform in others. Naively optimizing on such noisy datasets fails to learn preferences, hindering effective scaling. To enhance robustness against noise, we propose Poly-DPO, which extends the DPO objective with an additional polynomial term that dynamically adjusts model confidence based on dataset characteristics, enabling effective learning across diverse data distributions. Beyond biased patterns, existing datasets suffer from low resolution, limited prompt diversity, and imbalanced distributions. To facilitate large-scale visual preference optimization by tackling data bottlenecks, we construct ViPO, a massive-scale preference dataset with 1M image pairs at 1024px across five categories and 300K video pairs at 720p+ across three categories. State-of-the-art generative models and diverse prompts ensure reliable preference signals with balanced distributions. Remarkably, when applying Poly-DPO to our high-quality dataset, the optimal configuration converges to standard DPO. This convergence validates dataset quality and Poly-DPO's adaptive nature: sophisticated optimization becomes unnecessary with sufficient data quality, yet remains valuable for imperfect datasets. We validate our approach across visual generation models. On noisy datasets like Pick-a-Pic V2, Poly-DPO achieves 6.87 and 2.32 gains over Diffusion-DPO on GenEval for SD1.5 and SDXL, respectively. For ViPO, models achieve performance far exceeding those trained on existing open-source preference datasets. These results confirm that addressing both algorithmic adaptability and data quality is essential for scaling visual preference optimization.

ViPO: Ottimizzazione delle Preferenze Visive su Larga Scala

ViPO: Visual Preference Optimization at Scale

Abstract

Support