Optimisation des préférences tenant compte des marges pour l'alignement des modèles de diffusion sans référence
Margin-aware Preference Optimization for Aligning Diffusion Models without Reference
June 10, 2024
Auteurs: Jiwoo Hong, Sayak Paul, Noah Lee, Kashif Rasul, James Thorne, Jongheon Jeong
cs.AI
Résumé
Les techniques modernes d'alignement basées sur les préférences humaines, telles que RLHF et DPO, utilisent généralement une régularisation par divergence par rapport au modèle de référence pour assurer la stabilité de l'entraînement. Cependant, cela limite souvent la flexibilité des modèles pendant l'alignement, en particulier lorsqu'il existe un écart distributionnel clair entre les données de préférence et le modèle de référence. Dans cet article, nous nous concentrons sur l'alignement des récents modèles de diffusion texte-image, tels que Stable Diffusion XL (SDXL), et constatons que ce "décalage de référence" constitue effectivement un problème majeur dans l'alignement de ces modèles en raison de la nature non structurée des modalités visuelles : par exemple, une préférence pour un aspect stylistique particulier peut facilement induire un tel écart. Motivés par cette observation, nous proposons une nouvelle méthode d'alignement des préférences pour les modèles de diffusion, indépendante de tout modèle de référence et économisant la mémoire, baptisée optimisation des préférences sensible aux marges (MaPO). MaPO maximise conjointement la marge de vraisemblance entre les ensembles d'images préférées et non préférées ainsi que la vraisemblance des ensembles préférés, apprenant simultanément les caractéristiques stylistiques générales et les préférences. Pour l'évaluation, nous introduisons deux nouveaux ensembles de données de préférences par paires, comprenant des paires d'images auto-générées à partir de SDXL, Pick-Style et Pick-Safety, simulant divers scénarios de décalage de référence. Nos expériences valident que MaPO peut considérablement améliorer l'alignement sur Pick-Style et Pick-Safety ainsi que l'alignement général des préférences lorsqu'il est utilisé avec Pick-a-Pic v2, surpassant le SDXL de base et d'autres méthodes existantes. Notre code, modèles et ensembles de données sont disponibles publiquement via https://mapo-t2i.github.io.
English
Modern alignment techniques based on human preferences, such as RLHF and DPO,
typically employ divergence regularization relative to the reference model to
ensure training stability. However, this often limits the flexibility of models
during alignment, especially when there is a clear distributional discrepancy
between the preference data and the reference model. In this paper, we focus on
the alignment of recent text-to-image diffusion models, such as Stable
Diffusion XL (SDXL), and find that this "reference mismatch" is indeed a
significant problem in aligning these models due to the unstructured nature of
visual modalities: e.g., a preference for a particular stylistic aspect can
easily induce such a discrepancy. Motivated by this observation, we propose a
novel and memory-friendly preference alignment method for diffusion models that
does not depend on any reference model, coined margin-aware preference
optimization (MaPO). MaPO jointly maximizes the likelihood margin between the
preferred and dispreferred image sets and the likelihood of the preferred sets,
simultaneously learning general stylistic features and preferences. For
evaluation, we introduce two new pairwise preference datasets, which comprise
self-generated image pairs from SDXL, Pick-Style and Pick-Safety, simulating
diverse scenarios of reference mismatch. Our experiments validate that MaPO can
significantly improve alignment on Pick-Style and Pick-Safety and general
preference alignment when used with Pick-a-Pic v2, surpassing the base SDXL and
other existing methods. Our code, models, and datasets are publicly available
via https://mapo-t2i.github.ioSummary
AI-Generated Summary