ViPO: 대규모 시각 선호도 최적화
ViPO: Visual Preference Optimization at Scale
April 29, 2026
저자: Ming Li, Jie Wu, Justin Cui, Xiaojie Li, Rui Wang, Chen Chen
cs.AI
초록
시각적 생성 모델 향상에 선호도 최적화가 중요함에도 불구하고, 이러한 패러다임을 효과적으로 확장하는 방법은 아직까지 거의 연구되지 않았습니다. 현재 공개된 선호도 데이터셋은 상충되는 선호도 패턴을 포함하고 있어, 승자 이미지가 일부 차원에서는 뛰어나지만 다른 차원에서는 부진한 성능을 보입니다. 이러한 노이즈가 많은 데이터셋을 단순히 최적화하면 선호도를 효과적으로 학습하지 못해 확장에 어려움을 겪습니다. 노이즈에 대한 강건성을 높이기 위해 우리는 Poly-DPO를 제안합니다. 이는 DPO 목적함수를 다항식 항을 추가하여 확장하며, 데이터셋 특성에 기반하여 모델의 신뢰도를 동적으로 조정함으로써 다양한 데이터 분포에서 효과적인 학습을 가능하게 합니다.
편향된 패턴을 넘어, 기존 데이터셋은 저해상도, 제한된 프롬프트 다양성, 불균형 분포 문제를 안고 있습니다. 데이터 병목 현상을 해결하여 대규모 시각적 선호도 최적화를 촉진하기 위해 우리는 ViPO를 구축했습니다. 이는 5개 카테고리별 1024px 해상도의 100만 개 이미지 쌍과 3개 카테고리별 720p+ 해상도의 30만 개 비디오 쌍으로 구성된 대규모 선호도 데이터셋입니다. 최첨단 생성 모델과 다양한 프롬프트는 균형 잡힌 분포와 신뢰할 수 있는 선호도 신호를 보장합니다. 주목할 만하게도, 우리의 고품질 데이터셋에 Poly-DPO를 적용할 때 최적 구성은 표준 DPO로 수렴했습니다. 이 수렴은 데이터셋의 품질과 Poly-DPO의 적응적 특성을 입증합니다. 즉, 데이터 품질이 충분하면 복잡한 최적화는 불필요해지지만, 불완전한 데이터셋에서는 여전히 가치를 지닙니다.
우리는 이 접근법을 다양한 시각 생성 모델에서 검증했습니다. Pick-a-Pic V2와 같은 노이즈가 많은 데이터셋에서 Poly-DPO는 SD1.5와 SDXL 기준 GenEval에서 Diffusion-DPO 대비 각각 6.87점, 2.32점의 성능 향상을 달성했습니다. ViPO의 경우, 기존 공개 선호도 데이터셋으로 학습한 모델들을 훨씬 능가하는 성능을 보였습니다. 이러한 결과는 알고리즘의 적응성과 데이터 품질이라는 두 가지 문제를 모두 해결하는 것이 시각적 선호도 최적화의 확장에 필수적임을 확인시켜 줍니다.
English
While preference optimization is crucial for improving visual generative models, how to effectively scale this paradigm remains largely unexplored. Current open-source preference datasets contain conflicting preference patterns, where winners excel in some dimensions but underperform in others. Naively optimizing on such noisy datasets fails to learn preferences, hindering effective scaling. To enhance robustness against noise, we propose Poly-DPO, which extends the DPO objective with an additional polynomial term that dynamically adjusts model confidence based on dataset characteristics, enabling effective learning across diverse data distributions. Beyond biased patterns, existing datasets suffer from low resolution, limited prompt diversity, and imbalanced distributions. To facilitate large-scale visual preference optimization by tackling data bottlenecks, we construct ViPO, a massive-scale preference dataset with 1M image pairs at 1024px across five categories and 300K video pairs at 720p+ across three categories. State-of-the-art generative models and diverse prompts ensure reliable preference signals with balanced distributions. Remarkably, when applying Poly-DPO to our high-quality dataset, the optimal configuration converges to standard DPO. This convergence validates dataset quality and Poly-DPO's adaptive nature: sophisticated optimization becomes unnecessary with sufficient data quality, yet remains valuable for imperfect datasets. We validate our approach across visual generation models. On noisy datasets like Pick-a-Pic V2, Poly-DPO achieves 6.87 and 2.32 gains over Diffusion-DPO on GenEval for SD1.5 and SDXL, respectively. For ViPO, models achieve performance far exceeding those trained on existing open-source preference datasets. These results confirm that addressing both algorithmic adaptability and data quality is essential for scaling visual preference optimization.