ViPO: Visuele Voorkeursoptimalisatie op Schaal

Samenvatting

Hoewel voorkeursoptimalisatie cruciaal is voor het verbeteren van visuele generatieve modellen, blijft de vraag hoe dit paradigma effectief opgeschaald kan worden grotendeels onbeantwoord. Huidige open-source voorkeursdatasets bevatten tegenstrijdige voorkeurspatronen, waarbij winnaars uitblinken in sommige dimensies maar onderpresteren in andere. Een naïeve optimalisatie op dergelijke rumoerige datasets leert geen voorkeuren aan, wat een effectieve opschaling belemmert. Om de robuustheid tegen ruis te vergroten, stellen we Poly-DPO voor, dat het DPO-doel uitbreidt met een extra polynoomterm die de modelconfidence dynamisch aanpast op basis van datasetkenmerken, waardoor effectief leren over diverse datadistributies mogelijk wordt. Naast bevooroordeelde patronen lijden bestaande datasets onder lage resolutie, beperkte promptdiversiteit en onevenwichtige distributies. Om grootschalige visuele voorkeursoptimalisatie mogelijk te maken door dataknelpunten aan te pakken, construeren we ViPO, een grootschalige voorkeursdataset met 1M afbeeldingsparen bij 1024px in vijf categorieën en 300K videoparen bij 720p+ in drie categorieën. State-of-the-art generatieve modellen en diverse prompts waarborgen betrouwbare voorkeurssignalen met gebalanceerde distributies. Opmerkelijk genoeg convergeert de optimale configuratie naar standaard DPO wanneer Poly-DPO op onze hoogwaardige dataset wordt toegepast. Deze convergentie valideert de datasetkwaliteit en het adaptieve karakter van Poly-DPO: geavanceerde optimalisatie wordt overbodig bij voldoende datakwaliteit, maar blijft waardevol voor onvolmaakte datasets. We valideren onze aanpak voor verschillende visuele generatiemodellen. Op rumoerige datasets zoals Pick-a-Pic V2 behaalt Poly-DPO winsten van 6,87 en 2,32 ten opzichte van Diffusion-DPO op GenEval voor respectievelijk SD1.5 en SDXL. Voor ViPO behalen modellen prestaties die ver uitstijgen boven die getraind op bestaande open-source voorkeursdatasets. Deze resultaten bevestigen dat het aanpakken van zowel algoritmische aanpasbaarheid als datakwaliteit essentieel is voor het opschalen van visuele voorkeursoptimalisatie.

English

While preference optimization is crucial for improving visual generative models, how to effectively scale this paradigm remains largely unexplored. Current open-source preference datasets contain conflicting preference patterns, where winners excel in some dimensions but underperform in others. Naively optimizing on such noisy datasets fails to learn preferences, hindering effective scaling. To enhance robustness against noise, we propose Poly-DPO, which extends the DPO objective with an additional polynomial term that dynamically adjusts model confidence based on dataset characteristics, enabling effective learning across diverse data distributions. Beyond biased patterns, existing datasets suffer from low resolution, limited prompt diversity, and imbalanced distributions. To facilitate large-scale visual preference optimization by tackling data bottlenecks, we construct ViPO, a massive-scale preference dataset with 1M image pairs at 1024px across five categories and 300K video pairs at 720p+ across three categories. State-of-the-art generative models and diverse prompts ensure reliable preference signals with balanced distributions. Remarkably, when applying Poly-DPO to our high-quality dataset, the optimal configuration converges to standard DPO. This convergence validates dataset quality and Poly-DPO's adaptive nature: sophisticated optimization becomes unnecessary with sufficient data quality, yet remains valuable for imperfect datasets. We validate our approach across visual generation models. On noisy datasets like Pick-a-Pic V2, Poly-DPO achieves 6.87 and 2.32 gains over Diffusion-DPO on GenEval for SD1.5 and SDXL, respectively. For ViPO, models achieve performance far exceeding those trained on existing open-source preference datasets. These results confirm that addressing both algorithmic adaptability and data quality is essential for scaling visual preference optimization.

ViPO: Visuele Voorkeursoptimalisatie op Schaal

ViPO: Visual Preference Optimization at Scale

Samenvatting

Support