ChatPaper.aiChatPaper

Ottimizzazione delle Preferenze con Consapevolezza del Margine per l'Allineamento dei Modelli di Diffusione senza Riferimento

Margin-aware Preference Optimization for Aligning Diffusion Models without Reference

June 10, 2024
Autori: Jiwoo Hong, Sayak Paul, Noah Lee, Kashif Rasul, James Thorne, Jongheon Jeong
cs.AI

Abstract

Le moderne tecniche di allineamento basate sulle preferenze umane, come RLHF e DPO, tipicamente impiegano una regolarizzazione della divergenza rispetto al modello di riferimento per garantire la stabilità dell'addestramento. Tuttavia, questo spesso limita la flessibilità dei modelli durante l'allineamento, specialmente quando esiste una chiara discrepanza distributiva tra i dati delle preferenze e il modello di riferimento. In questo articolo, ci concentriamo sull'allineamento dei recenti modelli di diffusione testo-immagine, come Stable Diffusion XL (SDXL), e scopriamo che questo "disallineamento del riferimento" è effettivamente un problema significativo nell'allineamento di questi modelli a causa della natura non strutturata delle modalità visive: ad esempio, una preferenza per un particolare aspetto stilistico può facilmente indurre tale discrepanza. Motivati da questa osservazione, proponiamo un nuovo metodo di allineamento delle preferenze per i modelli di diffusione che non dipende da alcun modello di riferimento, denominato ottimizzazione delle preferenze con consapevolezza del margine (MaPO). MaPO massimizza congiuntamente il margine di verosimiglianza tra gli insiemi di immagini preferite e non preferite e la verosimiglianza degli insiemi preferiti, apprendendo simultaneamente caratteristiche stilistiche generali e preferenze. Per la valutazione, introduciamo due nuovi dataset di preferenze a coppie, che comprendono coppie di immagini auto-generate da SDXL, Pick-Style e Pick-Safety, simulando scenari diversi di disallineamento del riferimento. I nostri esperimenti confermano che MaPO può migliorare significativamente l'allineamento su Pick-Style e Pick-Safety e l'allineamento generale delle preferenze quando utilizzato con Pick-a-Pic v2, superando il modello base SDXL e altri metodi esistenti. Il nostro codice, modelli e dataset sono pubblicamente disponibili su https://mapo-t2i.github.io.
English
Modern alignment techniques based on human preferences, such as RLHF and DPO, typically employ divergence regularization relative to the reference model to ensure training stability. However, this often limits the flexibility of models during alignment, especially when there is a clear distributional discrepancy between the preference data and the reference model. In this paper, we focus on the alignment of recent text-to-image diffusion models, such as Stable Diffusion XL (SDXL), and find that this "reference mismatch" is indeed a significant problem in aligning these models due to the unstructured nature of visual modalities: e.g., a preference for a particular stylistic aspect can easily induce such a discrepancy. Motivated by this observation, we propose a novel and memory-friendly preference alignment method for diffusion models that does not depend on any reference model, coined margin-aware preference optimization (MaPO). MaPO jointly maximizes the likelihood margin between the preferred and dispreferred image sets and the likelihood of the preferred sets, simultaneously learning general stylistic features and preferences. For evaluation, we introduce two new pairwise preference datasets, which comprise self-generated image pairs from SDXL, Pick-Style and Pick-Safety, simulating diverse scenarios of reference mismatch. Our experiments validate that MaPO can significantly improve alignment on Pick-Style and Pick-Safety and general preference alignment when used with Pick-a-Pic v2, surpassing the base SDXL and other existing methods. Our code, models, and datasets are publicly available via https://mapo-t2i.github.io
PDF161December 8, 2024