Apprentissage à partir de préférences bruitées : une approche d'apprentissage semi-supervisé pour l'optimisation directe des préférences

Résumé

Les préférences visuelles humaines sont intrinsèquement multidimensionnelles, englobant l'esthétique, la fidélité des détails et l'alignement sémantique. Cependant, les ensembles de données existants ne fournissent que des annotations holistiques uniques, ce qui entraîne un bruit d'étiquetage important : les images excellent dans certaines dimensions mais sont déficientes dans d'autres sont simplement marquées comme gagnantes ou perdantes. Nous démontrons théoriquement que la compression des préférences multidimensionnelles en étiquettes binaires génère des signaux de gradient conflictuels qui induisent en erreur l'Optimisation Directe des Préférences par Diffusion (DPO). Pour résoudre ce problème, nous proposons Semi-DPO, une approche semi-supervisée qui traite les paires cohérentes comme des données étiquetées propres et les paires conflictuelles comme des données non étiquetées bruitées. Notre méthode commence par un apprentissage sur un sous-ensemble propre filtré par consensus, puis utilise ce modèle comme classificateur implicite pour générer des pseudo-étiquettes pour l'ensemble bruité en vue d'un raffinement itératif. Les résultats expérimentaux démontrent que Semi-DPO atteint des performances de pointe et améliore significativement l'alignement avec les préférences humaines complexes, sans nécessiter d'annotations humaines supplémentaires ou de modèles de récompense explicites pendant l'entraînement. Nous publierons notre code et nos modèles à l'adresse : https://github.com/L-CodingSpace/semi-dpo

English

Human visual preferences are inherently multi-dimensional, encompassing aesthetics, detail fidelity, and semantic alignment. However, existing datasets provide only single, holistic annotations, resulting in severe label noise: images that excel in some dimensions but are deficient in others are simply marked as winner or loser. We theoretically demonstrate that compressing multi-dimensional preferences into binary labels generates conflicting gradient signals that misguide Diffusion Direct Preference Optimization (DPO). To address this, we propose Semi-DPO, a semi-supervised approach that treats consistent pairs as clean labeled data and conflicting ones as noisy unlabeled data. Our method starts by training on a consensus-filtered clean subset, then uses this model as an implicit classifier to generate pseudo-labels for the noisy set for iterative refinement. Experimental results demonstrate that Semi-DPO achieves state-of-the-art performance and significantly improves alignment with complex human preferences, without requiring additional human annotation or explicit reward models during training. We will release our code and models at: https://github.com/L-CodingSpace/semi-dpo

Apprentissage à partir de préférences bruitées : une approche d'apprentissage semi-supervisé pour l'optimisation directe des préférences

Learning from Noisy Preferences: A Semi-Supervised Learning Approach to Direct Preference Optimization

Résumé

Support