ViPO：大規模な視覚的選好最適化

要旨

視覚生成モデルの改善において選好最適化は重要であるが、このパラダイムを効果的にスケーリングする方法はほとんど未開拓のままである。現在のオープンソース選好データセットには矛盾した選好パターンが含まれており、勝者がいくつかの次元では優れているものの、他の次元では性能が劣るという状況がある。このようなノイズの多いデータセットを単純に最適化しても選好を学習することはできず、効果的なスケーリングを妨げている。ノイズに対するロバスト性を高めるため、我々はPoly-DPOを提案する。これはDPO目的関数を多項式項で拡張したもので、データセットの特性に基づいてモデルの信頼度を動的に調整し、多様なデータ分布にわたる効果的な学習を可能にする。偏ったパターンに加えて、既存のデータセットは解像度の低さ、プロンプト多様性の不足、不均衡な分布という問題を抱えている。データのボトルネックに取り組むことで大規模な視覚選好最適化を促進するため、我々は大規模選好データセットViPOを構築した。これは5カテゴリにわたる1024pxの100万画像ペアと、3カテゴリにわたる720p+の30万ビデオペアを含む。最先端の生成モデルと多様なプロンプトにより、バランスの取れた分布を持つ信頼性の高い選好信号を保証する。注目すべきは、高品質なデータセットにPoly-DPOを適用した場合、最適設定が標準DPOに収束することである。この収束はデータセットの品質とPoly-DPOの適応性を検証するものだ。つまり、データ品質が十分であれば複雑な最適化は不要となるが、不完全なデータセットでは依然として価値を発揮する。我々はこのアプローチを様々な視覚生成モデルで検証した。Pick-a-Pic V2のようなノイズの多いデータセットでは、Poly-DPOはGenEvalにおいてSD1.5とSDXLでそれぞれDiffusion-DPOを6.87と2.32上回った。ViPOでは、既存のオープンソース選好データセットで学習したモデルをはるかに超える性能を達成した。これらの結果は、視覚選好最適化をスケールさせるためには、アルゴリズムの適応性とデータ品質の両方に取り組むことが不可欠であることを確認するものである。

English

While preference optimization is crucial for improving visual generative models, how to effectively scale this paradigm remains largely unexplored. Current open-source preference datasets contain conflicting preference patterns, where winners excel in some dimensions but underperform in others. Naively optimizing on such noisy datasets fails to learn preferences, hindering effective scaling. To enhance robustness against noise, we propose Poly-DPO, which extends the DPO objective with an additional polynomial term that dynamically adjusts model confidence based on dataset characteristics, enabling effective learning across diverse data distributions. Beyond biased patterns, existing datasets suffer from low resolution, limited prompt diversity, and imbalanced distributions. To facilitate large-scale visual preference optimization by tackling data bottlenecks, we construct ViPO, a massive-scale preference dataset with 1M image pairs at 1024px across five categories and 300K video pairs at 720p+ across three categories. State-of-the-art generative models and diverse prompts ensure reliable preference signals with balanced distributions. Remarkably, when applying Poly-DPO to our high-quality dataset, the optimal configuration converges to standard DPO. This convergence validates dataset quality and Poly-DPO's adaptive nature: sophisticated optimization becomes unnecessary with sufficient data quality, yet remains valuable for imperfect datasets. We validate our approach across visual generation models. On noisy datasets like Pick-a-Pic V2, Poly-DPO achieves 6.87 and 2.32 gains over Diffusion-DPO on GenEval for SD1.5 and SDXL, respectively. For ViPO, models achieve performance far exceeding those trained on existing open-source preference datasets. These results confirm that addressing both algorithmic adaptability and data quality is essential for scaling visual preference optimization.

ViPO：大規模な視覚的選好最適化

ViPO: Visual Preference Optimization at Scale

要旨

Support