ViPO: Visuelle Präferenzoptimierung im großen Maßstab
ViPO: Visual Preference Optimization at Scale
April 29, 2026
Autoren: Ming Li, Jie Wu, Justin Cui, Xiaojie Li, Rui Wang, Chen Chen
cs.AI
Zusammenfassung
Während Präferenzoptimierung entscheidend für die Verbesserung visueller Generativmodelle ist, ist die effektive Skalierung dieses Paradigmas weitgehend unerforscht. Aktuelle Open-Source-Präferenzdatensätze enthalten widersprüchliche Präferenzmuster, bei denen Gewinner in einigen Dimensionen überzeugen, in anderen jedoch schlechter abschneiden. Eine naive Optimierung mit solchen verrauschten Datensätzen führt nicht zum Erlernen der Präferenzen und behindert eine effektive Skalierung. Um die Robustheit gegenüber Rauschen zu erhöhen, schlagen wir Poly-DPO vor, das das DPO-Ziel um einen zusätzlichen Polynomterm erweitert. Dieser passt die Modellkonfidenz dynamisch basierend auf den Datensatzeigenschaften an und ermöglicht so effektives Lernen über verschiedene Datenverteilungen hinweg.
Neben verzerrten Mustern leiden bestehende Datensätze unter niedriger Auflösung, begrenzter Prompt-Vielfalt und unausgewogenen Verteilungen. Um groß angelegte visuelle Präferenzoptimierung durch die Bewältigung von Datenengpässen zu ermöglichen, erstellen wir ViPO, einen Präferenzdatensatz in großem Maßstab mit 1M Bildpaaren bei 1024px über fünf Kategorien und 300K Videopaaren bei 720p+ über drei Kategorien. Moderne Generativmodelle und diverse Prompts gewährleisten zuverlässige Präferenzsignale mit ausgewogenen Verteilungen.
Bemerkenswerterweise konvergiert die optimale Konfiguration bei der Anwendung von Poly-DPO auf unseren hochwertigen Datensatz gegen Standard-DPO. Diese Konvergenz validiert sowohl die Datensatzqualität als auch die adaptive Natur von Poly-DPO: Anspruchsvolle Optimierung wird bei ausreichender Datenqualität unnötig, bleibt aber für unvollkommene Datensätze wertvoll. Wir validieren unseren Ansatz an verschiedenen visuellen Generativmodellen. Auf verrauschten Datensätzen wie Pick-a-Pic V2 erzielt Poly-DPO gegenüber Diffusion-DPO auf GenEval für SD1.5 bzw. SDXL Gewinne von 6,87 und 2,32. Für ViPO übertreffen die Modelle die Leistung von Modellen, die auf bestehenden Open-Source-Präferenzdatensätzen trainiert wurden, bei weitem. Diese Ergebnisse bestätigen, dass die gleichzeitige Adressierung von algorithmischer Anpassungsfähigkeit und Datenqualität für die Skalierung visueller Präferenzoptimierung entscheidend ist.
English
While preference optimization is crucial for improving visual generative models, how to effectively scale this paradigm remains largely unexplored. Current open-source preference datasets contain conflicting preference patterns, where winners excel in some dimensions but underperform in others. Naively optimizing on such noisy datasets fails to learn preferences, hindering effective scaling. To enhance robustness against noise, we propose Poly-DPO, which extends the DPO objective with an additional polynomial term that dynamically adjusts model confidence based on dataset characteristics, enabling effective learning across diverse data distributions. Beyond biased patterns, existing datasets suffer from low resolution, limited prompt diversity, and imbalanced distributions. To facilitate large-scale visual preference optimization by tackling data bottlenecks, we construct ViPO, a massive-scale preference dataset with 1M image pairs at 1024px across five categories and 300K video pairs at 720p+ across three categories. State-of-the-art generative models and diverse prompts ensure reliable preference signals with balanced distributions. Remarkably, when applying Poly-DPO to our high-quality dataset, the optimal configuration converges to standard DPO. This convergence validates dataset quality and Poly-DPO's adaptive nature: sophisticated optimization becomes unnecessary with sufficient data quality, yet remains valuable for imperfect datasets. We validate our approach across visual generation models. On noisy datasets like Pick-a-Pic V2, Poly-DPO achieves 6.87 and 2.32 gains over Diffusion-DPO on GenEval for SD1.5 and SDXL, respectively. For ViPO, models achieve performance far exceeding those trained on existing open-source preference datasets. These results confirm that addressing both algorithmic adaptability and data quality is essential for scaling visual preference optimization.