Aprendizaje a partir de preferencias ruidosas: Un enfoque de aprendizaje semi-supervisado para la optimización directa de preferencias

Resumen

Las preferencias visuales humanas son inherentemente multidimensionales, abarcando la estética, la fidelidad del detalle y la alineación semántica. Sin embargo, los conjuntos de datos existentes solo proporcionan anotaciones holísticas únicas, lo que resulta en un ruido de etiquetas severo: las imágenes que sobresalen en algunas dimensiones pero son deficientes en otras simplemente se marcan como ganadoras o perdedoras. Demostramos teóricamente que comprimir las preferencias multidimensionales en etiquetas binarias genera señales de gradiente conflictivas que desorientan a la Optimización Directa de Preferencias por Difusión (DPO). Para abordar esto, proponemos Semi-DPO, un enfoque semi-supervisado que trata los pares consistentes como datos etiquetados limpios y los conflictivos como datos no etiquetados ruidosos. Nuestro método comienza entrenando en un subconjunto limpio filtrado por consenso, luego utiliza este modelo como un clasificador implícito para generar pseudoetiquetas para el conjunto ruidoso y realizar un refinamiento iterativo. Los resultados experimentales demuestran que Semi-DPO logra un rendimiento de vanguardia y mejora significativamente la alineación con las complejas preferencias humanas, sin requerir anotación humana adicional ni modelos de recompensa explícitos durante el entrenamiento. Liberaremos nuestro código y modelos en: https://github.com/L-CodingSpace/semi-dpo

English

Human visual preferences are inherently multi-dimensional, encompassing aesthetics, detail fidelity, and semantic alignment. However, existing datasets provide only single, holistic annotations, resulting in severe label noise: images that excel in some dimensions but are deficient in others are simply marked as winner or loser. We theoretically demonstrate that compressing multi-dimensional preferences into binary labels generates conflicting gradient signals that misguide Diffusion Direct Preference Optimization (DPO). To address this, we propose Semi-DPO, a semi-supervised approach that treats consistent pairs as clean labeled data and conflicting ones as noisy unlabeled data. Our method starts by training on a consensus-filtered clean subset, then uses this model as an implicit classifier to generate pseudo-labels for the noisy set for iterative refinement. Experimental results demonstrate that Semi-DPO achieves state-of-the-art performance and significantly improves alignment with complex human preferences, without requiring additional human annotation or explicit reward models during training. We will release our code and models at: https://github.com/L-CodingSpace/semi-dpo

Aprendizaje a partir de preferencias ruidosas: Un enfoque de aprendizaje semi-supervisado para la optimización directa de preferencias

Learning from Noisy Preferences: A Semi-Supervised Learning Approach to Direct Preference Optimization

Resumen

Support