Aprendizado de Preferências Ruidosas: Uma Abordagem de Aprendizado Semissupervisionado para Otimização Direta de Preferências

Resumo

As preferências visuais humanas são inerentemente multidimensionais, abrangendo estética, fidelidade de detalhes e alinhamento semântico. No entanto, os conjuntos de dados existentes fornecem apenas anotações holísticas únicas, resultando em ruído severo de rótulos: imagens que se destacam em algumas dimensões, mas são deficientes em outras, são simplesmente marcadas como vencedoras ou perdedoras. Demonstramos teoricamente que comprimir preferências multidimensionais em rótulos binários gera sinais de gradiente conflitantes que desviam a Otimização de Preferência Direta por Difusão (DPO). Para resolver isso, propomos o Semi-DPO, uma abordagem semissupervisionada que trata pares consistentes como dados limpos rotulados e os conflitantes como dados não rotulados ruidosos. Nosso método começa treinando em um subconjunto limpo filtrado por consenso e, em seguida, usa esse modelo como um classificador implícito para gerar pseudo-rótulos para o conjunto ruidoso para refinamento iterativo. Os resultados experimentais demonstram que o Semi-DPO alcança desempenho de última geração e melhora significativamente o alinhamento com preferências humanas complexas, sem exigir anotação humana adicional ou modelos de recompensa explícitos durante o treinamento. Disponibilizaremos nosso código e modelos em: https://github.com/L-CodingSpace/semi-dpo

English

Human visual preferences are inherently multi-dimensional, encompassing aesthetics, detail fidelity, and semantic alignment. However, existing datasets provide only single, holistic annotations, resulting in severe label noise: images that excel in some dimensions but are deficient in others are simply marked as winner or loser. We theoretically demonstrate that compressing multi-dimensional preferences into binary labels generates conflicting gradient signals that misguide Diffusion Direct Preference Optimization (DPO). To address this, we propose Semi-DPO, a semi-supervised approach that treats consistent pairs as clean labeled data and conflicting ones as noisy unlabeled data. Our method starts by training on a consensus-filtered clean subset, then uses this model as an implicit classifier to generate pseudo-labels for the noisy set for iterative refinement. Experimental results demonstrate that Semi-DPO achieves state-of-the-art performance and significantly improves alignment with complex human preferences, without requiring additional human annotation or explicit reward models during training. We will release our code and models at: https://github.com/L-CodingSpace/semi-dpo

Aprendizado de Preferências Ruidosas: Uma Abordagem de Aprendizado Semissupervisionado para Otimização Direta de Preferências

Learning from Noisy Preferences: A Semi-Supervised Learning Approach to Direct Preference Optimization

Resumo

Support