Ottimizzazione delle Preferenze con Consapevolezza del Margine per l'Allineamento dei Modelli di Diffusione senza Riferimento
Margin-aware Preference Optimization for Aligning Diffusion Models without Reference
June 10, 2024
Autori: Jiwoo Hong, Sayak Paul, Noah Lee, Kashif Rasul, James Thorne, Jongheon Jeong
cs.AI
Abstract
Le moderne tecniche di allineamento basate sulle preferenze umane, come RLHF e DPO, tipicamente impiegano una regolarizzazione della divergenza rispetto al modello di riferimento per garantire la stabilità dell'addestramento. Tuttavia, questo spesso limita la flessibilità dei modelli durante l'allineamento, specialmente quando esiste una chiara discrepanza distributiva tra i dati delle preferenze e il modello di riferimento. In questo articolo, ci concentriamo sull'allineamento dei recenti modelli di diffusione testo-immagine, come Stable Diffusion XL (SDXL), e scopriamo che questo "disallineamento del riferimento" è effettivamente un problema significativo nell'allineamento di questi modelli a causa della natura non strutturata delle modalità visive: ad esempio, una preferenza per un particolare aspetto stilistico può facilmente indurre tale discrepanza. Motivati da questa osservazione, proponiamo un nuovo metodo di allineamento delle preferenze per i modelli di diffusione che non dipende da alcun modello di riferimento, denominato ottimizzazione delle preferenze con consapevolezza del margine (MaPO). MaPO massimizza congiuntamente il margine di verosimiglianza tra gli insiemi di immagini preferite e non preferite e la verosimiglianza degli insiemi preferiti, apprendendo simultaneamente caratteristiche stilistiche generali e preferenze. Per la valutazione, introduciamo due nuovi dataset di preferenze a coppie, che comprendono coppie di immagini auto-generate da SDXL, Pick-Style e Pick-Safety, simulando scenari diversi di disallineamento del riferimento. I nostri esperimenti confermano che MaPO può migliorare significativamente l'allineamento su Pick-Style e Pick-Safety e l'allineamento generale delle preferenze quando utilizzato con Pick-a-Pic v2, superando il modello base SDXL e altri metodi esistenti. Il nostro codice, modelli e dataset sono pubblicamente disponibili su https://mapo-t2i.github.io.
English
Modern alignment techniques based on human preferences, such as RLHF and DPO,
typically employ divergence regularization relative to the reference model to
ensure training stability. However, this often limits the flexibility of models
during alignment, especially when there is a clear distributional discrepancy
between the preference data and the reference model. In this paper, we focus on
the alignment of recent text-to-image diffusion models, such as Stable
Diffusion XL (SDXL), and find that this "reference mismatch" is indeed a
significant problem in aligning these models due to the unstructured nature of
visual modalities: e.g., a preference for a particular stylistic aspect can
easily induce such a discrepancy. Motivated by this observation, we propose a
novel and memory-friendly preference alignment method for diffusion models that
does not depend on any reference model, coined margin-aware preference
optimization (MaPO). MaPO jointly maximizes the likelihood margin between the
preferred and dispreferred image sets and the likelihood of the preferred sets,
simultaneously learning general stylistic features and preferences. For
evaluation, we introduce two new pairwise preference datasets, which comprise
self-generated image pairs from SDXL, Pick-Style and Pick-Safety, simulating
diverse scenarios of reference mismatch. Our experiments validate that MaPO can
significantly improve alignment on Pick-Style and Pick-Safety and general
preference alignment when used with Pick-a-Pic v2, surpassing the base SDXL and
other existing methods. Our code, models, and datasets are publicly available
via https://mapo-t2i.github.io