Обучение на зашумленных предпочтениях: полуавтоматический подход к прямой оптимизации предпочтений

Аннотация

Визуальные предпочтения человека по своей природе многомерны, охватывая эстетику, точность деталей и семантическое соответствие. Однако существующие наборы данных предоставляют лишь единые интегральные оценки, что приводит к значительному шуму в разметке: изображения, превосходящие по одним параметрам, но уступающие по другим, просто помечаются как победители или проигравшие. Мы теоретически демонстрируем, что сжатие многомерных предпочтений в бинарные метки порождает конфликтующие градиентные сигналы, которые дезориентируют метод оптимизации прямых предпочтений для диффузионных моделей (DPO). Для решения этой проблемы мы предлагаем Semi-DPO — полуавтоматический подход, который трактует согласованные пары как чистые размеченные данные, а конфликтующие — как зашумленные неразмеченные данные. Наш метод начинается с обучения на очищенном подмножестве данных, отфильтрованном по консенсусу, после чего эта модель используется как неявный классификатор для генерации псевдо-меток зашумленного набора с последующей итеративной доработкой. Экспериментальные результаты показывают, что Semi-DPO достигает передовой производительности и значительно улучшает соответствие сложным человеческим предпочтениям без необходимости дополнительной человеческой разметки или явных моделей вознаграждения в процессе обучения. Наш код и модели будут доступны по адресу: https://github.com/L-CodingSpace/semi-dpo.

English

Human visual preferences are inherently multi-dimensional, encompassing aesthetics, detail fidelity, and semantic alignment. However, existing datasets provide only single, holistic annotations, resulting in severe label noise: images that excel in some dimensions but are deficient in others are simply marked as winner or loser. We theoretically demonstrate that compressing multi-dimensional preferences into binary labels generates conflicting gradient signals that misguide Diffusion Direct Preference Optimization (DPO). To address this, we propose Semi-DPO, a semi-supervised approach that treats consistent pairs as clean labeled data and conflicting ones as noisy unlabeled data. Our method starts by training on a consensus-filtered clean subset, then uses this model as an implicit classifier to generate pseudo-labels for the noisy set for iterative refinement. Experimental results demonstrate that Semi-DPO achieves state-of-the-art performance and significantly improves alignment with complex human preferences, without requiring additional human annotation or explicit reward models during training. We will release our code and models at: https://github.com/L-CodingSpace/semi-dpo

Обучение на зашумленных предпочтениях: полуавтоматический подход к прямой оптимизации предпочтений

Learning from Noisy Preferences: A Semi-Supervised Learning Approach to Direct Preference Optimization

Аннотация

Support