Leren van ruisvoorkeuren: een semi-gestuurd leeraanpak voor directe voorkeursoptimalisatie

Samenvatting

Menselijke visuele voorkeuren zijn van nature multidimensionaal, waarbij esthetiek, detailgetrouwheid en semantische afstemming worden omvat. Bestaande datasets bieden echter alleen enkele, holistische annotaties, wat leidt tot ernstige labelruis: afbeeldingen die uitblinken in sommige dimensies maar tekortschieten in andere, worden eenvoudigweg als winnaar of verliezer gemarkeerd. Wij tonen theoretisch aan dat het comprimeren van multidimensionale voorkeuren naar binaire labels tegenstrijdige gradiëntsignalen genereert die Diffusion Direct Preference Optimization (DPO) misleiden. Om dit aan te pakken, stellen wij Semi-DPO voor, een semi-gesuperviseerde aanpak die consistente paren als schone gelabelde data behandelt en conflicterende paren als ruisende ongelabelde data. Onze methode start met training op een op consensus gefilterde schone subset, gebruikt dit model vervolgens als een impliciete classifier om pseudo-labels te genereren voor de ruisende set voor iteratieve verfijning. Experimentele resultaten tonen aan dat Semi-DPO state-of-the-art prestaties bereikt en de afstemming met complexe menselijke voorkeuren significant verbetert, zonder extra menselijke annotatie of expliciete beloningsmodellen tijdens de training. Wij zullen onze code en modellen vrijgeven op: https://github.com/L-CodingSpace/semi-dpo.

English

Human visual preferences are inherently multi-dimensional, encompassing aesthetics, detail fidelity, and semantic alignment. However, existing datasets provide only single, holistic annotations, resulting in severe label noise: images that excel in some dimensions but are deficient in others are simply marked as winner or loser. We theoretically demonstrate that compressing multi-dimensional preferences into binary labels generates conflicting gradient signals that misguide Diffusion Direct Preference Optimization (DPO). To address this, we propose Semi-DPO, a semi-supervised approach that treats consistent pairs as clean labeled data and conflicting ones as noisy unlabeled data. Our method starts by training on a consensus-filtered clean subset, then uses this model as an implicit classifier to generate pseudo-labels for the noisy set for iterative refinement. Experimental results demonstrate that Semi-DPO achieves state-of-the-art performance and significantly improves alignment with complex human preferences, without requiring additional human annotation or explicit reward models during training. We will release our code and models at: https://github.com/L-CodingSpace/semi-dpo

Leren van ruisvoorkeuren: een semi-gestuurd leeraanpak voor directe voorkeursoptimalisatie

Learning from Noisy Preferences: A Semi-Supervised Learning Approach to Direct Preference Optimization

Samenvatting

Support