Optimisation des préférences tenant compte des marges pour l'alignement des modèles de diffusion sans référence

papers.abstract

Les techniques modernes d'alignement basées sur les préférences humaines, telles que RLHF et DPO, utilisent généralement une régularisation par divergence par rapport au modèle de référence pour assurer la stabilité de l'entraînement. Cependant, cela limite souvent la flexibilité des modèles pendant l'alignement, en particulier lorsqu'il existe un écart distributionnel clair entre les données de préférence et le modèle de référence. Dans cet article, nous nous concentrons sur l'alignement des récents modèles de diffusion texte-image, tels que Stable Diffusion XL (SDXL), et constatons que ce "décalage de référence" constitue effectivement un problème majeur dans l'alignement de ces modèles en raison de la nature non structurée des modalités visuelles : par exemple, une préférence pour un aspect stylistique particulier peut facilement induire un tel écart. Motivés par cette observation, nous proposons une nouvelle méthode d'alignement des préférences pour les modèles de diffusion, indépendante de tout modèle de référence et économisant la mémoire, baptisée optimisation des préférences sensible aux marges (MaPO). MaPO maximise conjointement la marge de vraisemblance entre les ensembles d'images préférées et non préférées ainsi que la vraisemblance des ensembles préférés, apprenant simultanément les caractéristiques stylistiques générales et les préférences. Pour l'évaluation, nous introduisons deux nouveaux ensembles de données de préférences par paires, comprenant des paires d'images auto-générées à partir de SDXL, Pick-Style et Pick-Safety, simulant divers scénarios de décalage de référence. Nos expériences valident que MaPO peut considérablement améliorer l'alignement sur Pick-Style et Pick-Safety ainsi que l'alignement général des préférences lorsqu'il est utilisé avec Pick-a-Pic v2, surpassant le SDXL de base et d'autres méthodes existantes. Notre code, modèles et ensembles de données sont disponibles publiquement via https://mapo-t2i.github.io.

English

Modern alignment techniques based on human preferences, such as RLHF and DPO, typically employ divergence regularization relative to the reference model to ensure training stability. However, this often limits the flexibility of models during alignment, especially when there is a clear distributional discrepancy between the preference data and the reference model. In this paper, we focus on the alignment of recent text-to-image diffusion models, such as Stable Diffusion XL (SDXL), and find that this "reference mismatch" is indeed a significant problem in aligning these models due to the unstructured nature of visual modalities: e.g., a preference for a particular stylistic aspect can easily induce such a discrepancy. Motivated by this observation, we propose a novel and memory-friendly preference alignment method for diffusion models that does not depend on any reference model, coined margin-aware preference optimization (MaPO). MaPO jointly maximizes the likelihood margin between the preferred and dispreferred image sets and the likelihood of the preferred sets, simultaneously learning general stylistic features and preferences. For evaluation, we introduce two new pairwise preference datasets, which comprise self-generated image pairs from SDXL, Pick-Style and Pick-Safety, simulating diverse scenarios of reference mismatch. Our experiments validate that MaPO can significantly improve alignment on Pick-Style and Pick-Safety and general preference alignment when used with Pick-a-Pic v2, surpassing the base SDXL and other existing methods. Our code, models, and datasets are publicly available via https://mapo-t2i.github.io

Optimisation des préférences tenant compte des marges pour l'alignement des modèles de diffusion sans référence

Margin-aware Preference Optimization for Aligning Diffusion Models without Reference

papers.abstract

Support