Marge-bewuste voorkeursoptimalisatie voor het uitlijnen van diffusiemodellen zonder referentie
Margin-aware Preference Optimization for Aligning Diffusion Models without Reference
June 10, 2024
Auteurs: Jiwoo Hong, Sayak Paul, Noah Lee, Kashif Rasul, James Thorne, Jongheon Jeong
cs.AI
Samenvatting
Moderne afstemmingstechnieken gebaseerd op menselijke voorkeuren, zoals RLHF en DPO, maken doorgaans gebruik van divergentie-regularisatie ten opzichte van het referentiemodel om de trainingsstabiliteit te waarborgen. Dit beperkt echter vaak de flexibiliteit van modellen tijdens het afstemmen, vooral wanneer er een duidelijke distributie-discrepantie bestaat tussen de voorkeursdata en het referentiemodel. In dit artikel richten we ons op de afstemming van recente tekst-naar-beeld diffusiemodellen, zoals Stable Diffusion XL (SDXL), en constateren we dat deze "referentiemismatch" inderdaad een significant probleem is bij het afstemmen van deze modellen vanwege de ongestructureerde aard van visuele modaliteiten: bijvoorbeeld kan een voorkeur voor een bepaald stilistisch aspect gemakkelijk zo'n discrepantie veroorzaken. Gemotiveerd door deze observatie stellen we een nieuwe en geheugenvriendelijke voorkeursafstemmingsmethode voor diffusiemodellen voor die niet afhankelijk is van een referentiemodel, genaamd margin-aware preference optimization (MaPO). MaPO maximaliseert gezamenlijk de waarschijnlijkheidsmarge tussen de geprefereerde en niet-geprefereerde beeldensets en de waarschijnlijkheid van de geprefereerde sets, waarbij tegelijkertijd algemene stilistische kenmerken en voorkeuren worden geleerd. Voor evaluatie introduceren we twee nieuwe gepaarde voorkeursdatasets, bestaande uit zelf gegenereerde beeldparen van SDXL, Pick-Style en Pick-Safety, die diverse scenario's van referentiemismatch simuleren. Onze experimenten valideren dat MaPO de afstemming op Pick-Style en Pick-Safety en algemene voorkeursafstemming bij gebruik met Pick-a-Pic v2 aanzienlijk kan verbeteren, waarbij het de basis-SDXL en andere bestaande methoden overtreft. Onze code, modellen en datasets zijn publiekelijk beschikbaar via https://mapo-t2i.github.io.
English
Modern alignment techniques based on human preferences, such as RLHF and DPO,
typically employ divergence regularization relative to the reference model to
ensure training stability. However, this often limits the flexibility of models
during alignment, especially when there is a clear distributional discrepancy
between the preference data and the reference model. In this paper, we focus on
the alignment of recent text-to-image diffusion models, such as Stable
Diffusion XL (SDXL), and find that this "reference mismatch" is indeed a
significant problem in aligning these models due to the unstructured nature of
visual modalities: e.g., a preference for a particular stylistic aspect can
easily induce such a discrepancy. Motivated by this observation, we propose a
novel and memory-friendly preference alignment method for diffusion models that
does not depend on any reference model, coined margin-aware preference
optimization (MaPO). MaPO jointly maximizes the likelihood margin between the
preferred and dispreferred image sets and the likelihood of the preferred sets,
simultaneously learning general stylistic features and preferences. For
evaluation, we introduce two new pairwise preference datasets, which comprise
self-generated image pairs from SDXL, Pick-Style and Pick-Safety, simulating
diverse scenarios of reference mismatch. Our experiments validate that MaPO can
significantly improve alignment on Pick-Style and Pick-Safety and general
preference alignment when used with Pick-a-Pic v2, surpassing the base SDXL and
other existing methods. Our code, models, and datasets are publicly available
via https://mapo-t2i.github.io