Apprendimento da Preferenze Rumoreggiate: Un Approccio di Apprendimento Semi-Supervisionato all'Ottimizzazione Diretta delle Preferenze

Abstract

Le preferenze visive umane sono intrinsecamente multidimensionali, comprendendo estetica, fedeltà dei dettagli e allineamento semantico. Tuttavia, i dataset esistenti forniscono solo annotazioni olistiche e singole, risultando in un rumore etichettato severo: immagini che eccellono in alcune dimensioni ma sono carenti in altre vengono semplicemente marcate come vincenti o perdenti. Dimostriamo teoricamente che comprimere preferenze multidimensionali in etichette binarie genera segnali di gradiente conflittuali che fuorviano la Diffusion Direct Preference Optimization (DPO). Per affrontare questo problema, proponiamo Semi-DPO, un approccio semi-supervisionato che tratta le coppie consistenti come dati etichettati puliti e quelle conflittuali come dati rumorosi non etichettati. Il nostro metodo inizia addestrandosi su un sottoinsieme pulito filtrato per consenso, per poi utilizzare questo modello come classificatore implicito per generare pseudo-etichette per l'insieme rumoroso al fine di un raffinamento iterativo. I risultati sperimentali dimostrano che Semi-DPO raggiunge prestazioni allo stato dell'arte e migliora significativamente l'allineamento con le complesse preferenze umane, senza richiedere annotazioni umane aggiuntive o modelli di ricompensa espliciti durante l'addestramento. Rilasceremo il nostro codice e i nostri modelli all'indirizzo: https://github.com/L-CodingSpace/semi-dpo

English

Human visual preferences are inherently multi-dimensional, encompassing aesthetics, detail fidelity, and semantic alignment. However, existing datasets provide only single, holistic annotations, resulting in severe label noise: images that excel in some dimensions but are deficient in others are simply marked as winner or loser. We theoretically demonstrate that compressing multi-dimensional preferences into binary labels generates conflicting gradient signals that misguide Diffusion Direct Preference Optimization (DPO). To address this, we propose Semi-DPO, a semi-supervised approach that treats consistent pairs as clean labeled data and conflicting ones as noisy unlabeled data. Our method starts by training on a consensus-filtered clean subset, then uses this model as an implicit classifier to generate pseudo-labels for the noisy set for iterative refinement. Experimental results demonstrate that Semi-DPO achieves state-of-the-art performance and significantly improves alignment with complex human preferences, without requiring additional human annotation or explicit reward models during training. We will release our code and models at: https://github.com/L-CodingSpace/semi-dpo

Apprendimento da Preferenze Rumoreggiate: Un Approccio di Apprendimento Semi-Supervisionato all'Ottimizzazione Diretta delle Preferenze

Learning from Noisy Preferences: A Semi-Supervised Learning Approach to Direct Preference Optimization

Abstract

Support