Otimização de Preferência com Consciência de Margem para Alinhamento de Modelos de Difusão sem Referência
Margin-aware Preference Optimization for Aligning Diffusion Models without Reference
June 10, 2024
Autores: Jiwoo Hong, Sayak Paul, Noah Lee, Kashif Rasul, James Thorne, Jongheon Jeong
cs.AI
Resumo
Técnicas modernas de alinhamento baseadas em preferências humanas, como RLHF e DPO, geralmente empregam regularização de divergência em relação ao modelo de referência para garantir a estabilidade do treinamento. No entanto, isso frequentemente limita a flexibilidade dos modelos durante o alinhamento, especialmente quando há uma discrepância distribucional clara entre os dados de preferência e o modelo de referência. Neste artigo, focamos no alinhamento de modelos recentes de difusão de texto para imagem, como o Stable Diffusion XL (SDXL), e descobrimos que esse "desajuste de referência" é de fato um problema significativo no alinhamento desses modelos devido à natureza não estruturada das modalidades visuais: por exemplo, uma preferência por um aspecto estilístico específico pode facilmente induzir tal discrepância. Motivados por essa observação, propomos um novo método de alinhamento de preferências para modelos de difusão que não depende de nenhum modelo de referência, denominado otimização de preferências com consciência de margem (MaPO). O MaPO maximiza conjuntamente a margem de verossimilhança entre os conjuntos de imagens preferidas e não preferidas e a verossimilhança dos conjuntos preferidos, aprendendo simultaneamente características estilísticas gerais e preferências. Para avaliação, introduzimos dois novos conjuntos de dados de preferências pareadas, que consistem em pares de imagens auto-geradas do SDXL, Pick-Style e Pick-Safety, simulando diversos cenários de desajuste de referência. Nossos experimentos validam que o MaPO pode melhorar significativamente o alinhamento em Pick-Style e Pick-Safety e o alinhamento geral de preferências quando usado com Pick-a-Pic v2, superando o SDXL base e outros métodos existentes. Nosso código, modelos e conjuntos de dados estão publicamente disponíveis em https://mapo-t2i.github.io.
English
Modern alignment techniques based on human preferences, such as RLHF and DPO,
typically employ divergence regularization relative to the reference model to
ensure training stability. However, this often limits the flexibility of models
during alignment, especially when there is a clear distributional discrepancy
between the preference data and the reference model. In this paper, we focus on
the alignment of recent text-to-image diffusion models, such as Stable
Diffusion XL (SDXL), and find that this "reference mismatch" is indeed a
significant problem in aligning these models due to the unstructured nature of
visual modalities: e.g., a preference for a particular stylistic aspect can
easily induce such a discrepancy. Motivated by this observation, we propose a
novel and memory-friendly preference alignment method for diffusion models that
does not depend on any reference model, coined margin-aware preference
optimization (MaPO). MaPO jointly maximizes the likelihood margin between the
preferred and dispreferred image sets and the likelihood of the preferred sets,
simultaneously learning general stylistic features and preferences. For
evaluation, we introduce two new pairwise preference datasets, which comprise
self-generated image pairs from SDXL, Pick-Style and Pick-Safety, simulating
diverse scenarios of reference mismatch. Our experiments validate that MaPO can
significantly improve alignment on Pick-Style and Pick-Safety and general
preference alignment when used with Pick-a-Pic v2, surpassing the base SDXL and
other existing methods. Our code, models, and datasets are publicly available
via https://mapo-t2i.github.io