Optimización de Preferencias con Conciencia del Margen para Alinear Modelos de Difusión sin Referencia
Margin-aware Preference Optimization for Aligning Diffusion Models without Reference
June 10, 2024
Autores: Jiwoo Hong, Sayak Paul, Noah Lee, Kashif Rasul, James Thorne, Jongheon Jeong
cs.AI
Resumen
Las técnicas modernas de alineación basadas en preferencias humanas, como RLHF y DPO, suelen emplear regularización de divergencia respecto al modelo de referencia para garantizar la estabilidad del entrenamiento. Sin embargo, esto a menudo limita la flexibilidad de los modelos durante la alineación, especialmente cuando existe una discrepancia distribucional clara entre los datos de preferencia y el modelo de referencia. En este artículo, nos centramos en la alineación de modelos recientes de difusión texto-imagen, como Stable Diffusion XL (SDXL), y encontramos que este "desajuste de referencia" es, de hecho, un problema significativo al alinear estos modelos debido a la naturaleza no estructurada de las modalidades visuales: por ejemplo, una preferencia por un aspecto estilístico particular puede inducir fácilmente tal discrepancia. Motivados por esta observación, proponemos un método novedoso y eficiente en memoria para la alineación de preferencias en modelos de difusión que no depende de ningún modelo de referencia, denominado optimización de preferencias consciente del margen (MaPO). MaPO maximiza conjuntamente el margen de verosimilitud entre los conjuntos de imágenes preferidas y no preferidas, y la verosimilitud de los conjuntos preferidos, aprendiendo simultáneamente características estilísticas generales y preferencias. Para la evaluación, introducimos dos nuevos conjuntos de datos de preferencias por pares, que incluyen pares de imágenes autogeneradas de SDXL, Pick-Style y Pick-Safety, simulando diversos escenarios de desajuste de referencia. Nuestros experimentos validan que MaPO puede mejorar significativamente la alineación en Pick-Style y Pick-Safety, así como la alineación general de preferencias cuando se utiliza con Pick-a-Pic v2, superando al SDXL base y a otros métodos existentes. Nuestro código, modelos y conjuntos de datos están disponibles públicamente en https://mapo-t2i.github.io.
English
Modern alignment techniques based on human preferences, such as RLHF and DPO,
typically employ divergence regularization relative to the reference model to
ensure training stability. However, this often limits the flexibility of models
during alignment, especially when there is a clear distributional discrepancy
between the preference data and the reference model. In this paper, we focus on
the alignment of recent text-to-image diffusion models, such as Stable
Diffusion XL (SDXL), and find that this "reference mismatch" is indeed a
significant problem in aligning these models due to the unstructured nature of
visual modalities: e.g., a preference for a particular stylistic aspect can
easily induce such a discrepancy. Motivated by this observation, we propose a
novel and memory-friendly preference alignment method for diffusion models that
does not depend on any reference model, coined margin-aware preference
optimization (MaPO). MaPO jointly maximizes the likelihood margin between the
preferred and dispreferred image sets and the likelihood of the preferred sets,
simultaneously learning general stylistic features and preferences. For
evaluation, we introduce two new pairwise preference datasets, which comprise
self-generated image pairs from SDXL, Pick-Style and Pick-Safety, simulating
diverse scenarios of reference mismatch. Our experiments validate that MaPO can
significantly improve alignment on Pick-Style and Pick-Safety and general
preference alignment when used with Pick-a-Pic v2, surpassing the base SDXL and
other existing methods. Our code, models, and datasets are publicly available
via https://mapo-t2i.github.ioSummary
AI-Generated Summary