Lernen aus verrauschten Präferenzen: Ein semi-überwachter Lernansatz für Direct Preference Optimization

Zusammenfassung

Menschliche visuelle Präferenzen sind inhärent mehrdimensional und umfassen Ästhetik, Detailtreue und semantische Übereinstimmung. Bestehende Datensätze liefern jedoch nur einzelne, holistische Annotationen, was zu erheblichem Label-Rauschen führt: Bilder, die in einigen Dimensionen hervorstechen, in anderen jedoch Defizite aufweisen, werden einfach als Gewinner oder Verlierer markiert. Wir zeigen theoretisch, dass die Kompression mehrdimensionaler Präferenzen in binäre Labels widersprüchliche Gradientensignale erzeugt, die die Diffusion Direct Preference Optimization (DPO) fehlleiten. Um dies zu addressieren, schlagen wir Semi-DPO vor, einen semi-überwachten Ansatz, der konsistente Paare als sauber gelabelte Daten und widersprüchliche Paare als verrauschte ungelabelte Daten behandelt. Unsere Methode beginnt mit dem Training auf einem konsensgefilterten sauberen Subset, nutzt dieses Modell dann als impliziten Klassifikator zur Generierung von Pseudo-Labels für das verrauschte Set zur iterativen Verbesserung. Experimentelle Ergebnisse zeigen, dass Semi-DPO state-of-the-art Leistung erreicht und die Abstimmung mit komplexen menschlichen Präferenzen signifikant verbessert, ohne zusätzliche menschliche Annotation oder explizite Reward-Modelle während des Trainings zu benötigen. Wir werden unseren Code und unsere Modelle unter folgender Adresse veröffentlichen: https://github.com/L-CodingSpace/semi-dpo

English

Human visual preferences are inherently multi-dimensional, encompassing aesthetics, detail fidelity, and semantic alignment. However, existing datasets provide only single, holistic annotations, resulting in severe label noise: images that excel in some dimensions but are deficient in others are simply marked as winner or loser. We theoretically demonstrate that compressing multi-dimensional preferences into binary labels generates conflicting gradient signals that misguide Diffusion Direct Preference Optimization (DPO). To address this, we propose Semi-DPO, a semi-supervised approach that treats consistent pairs as clean labeled data and conflicting ones as noisy unlabeled data. Our method starts by training on a consensus-filtered clean subset, then uses this model as an implicit classifier to generate pseudo-labels for the noisy set for iterative refinement. Experimental results demonstrate that Semi-DPO achieves state-of-the-art performance and significantly improves alignment with complex human preferences, without requiring additional human annotation or explicit reward models during training. We will release our code and models at: https://github.com/L-CodingSpace/semi-dpo

Lernen aus verrauschten Präferenzen: Ein semi-überwachter Lernansatz für Direct Preference Optimization

Learning from Noisy Preferences: A Semi-Supervised Learning Approach to Direct Preference Optimization

Zusammenfassung

Support