Оптимизация предпочтений с учетом отступа для выравнивания моделей диффузии без ссылки.
Margin-aware Preference Optimization for Aligning Diffusion Models without Reference
June 10, 2024
Авторы: Jiwoo Hong, Sayak Paul, Noah Lee, Kashif Rasul, James Thorne, Jongheon Jeong
cs.AI
Аннотация
Современные методы выравнивания на основе предпочтений человека, такие как RLHF и DPO, обычно используют регуляризацию расхождения относительно эталонной модели для обеспечения стабильности обучения. Однако это часто ограничивает гибкость моделей во время выравнивания, особенно когда существует явное расхождение в распределении между данными предпочтений и эталонной моделью. В данной статье мы фокусируемся на выравнивании недавних моделей диффузии текста в изображение, таких как Stable Diffusion XL (SDXL), и обнаруживаем, что "несоответствие эталону" действительно является значительной проблемой при выравнивании этих моделей из-за неструктурированной природы визуальных модальностей: например, предпочтение определенного стилистического аспекта легко может вызвать такое расхождение. Вдохновленные этим наблюдением, мы предлагаем новый и дружественный к памяти метод выравнивания предпочтений для моделей диффузии, не зависящий от какой-либо эталонной модели, названный оптимизацией предпочтений с учетом отступа (MaPO). MaPO одновременно максимизирует вероятностный зазор между предпочтительными и непредпочтительными наборами изображений и вероятность предпочтительных наборов, одновременно обучая общие стилистические особенности и предпочтения. Для оценки мы вводим два новых набора данных парных предпочтений, включающих самостоятельно созданные пары изображений из SDXL, Pick-Style и Pick-Safety, имитируя разнообразные сценарии несоответствия эталону. Наши эксперименты подтверждают, что MaPO может значительно улучшить выравнивание на Pick-Style и Pick-Safety, а также общее выравнивание предпочтений при использовании Pick-a-Pic v2, превосходя базовый SDXL и другие существующие методы. Наш код, модели и наборы данных доступны публично по ссылке https://mapo-t2i.github.io.
English
Modern alignment techniques based on human preferences, such as RLHF and DPO,
typically employ divergence regularization relative to the reference model to
ensure training stability. However, this often limits the flexibility of models
during alignment, especially when there is a clear distributional discrepancy
between the preference data and the reference model. In this paper, we focus on
the alignment of recent text-to-image diffusion models, such as Stable
Diffusion XL (SDXL), and find that this "reference mismatch" is indeed a
significant problem in aligning these models due to the unstructured nature of
visual modalities: e.g., a preference for a particular stylistic aspect can
easily induce such a discrepancy. Motivated by this observation, we propose a
novel and memory-friendly preference alignment method for diffusion models that
does not depend on any reference model, coined margin-aware preference
optimization (MaPO). MaPO jointly maximizes the likelihood margin between the
preferred and dispreferred image sets and the likelihood of the preferred sets,
simultaneously learning general stylistic features and preferences. For
evaluation, we introduce two new pairwise preference datasets, which comprise
self-generated image pairs from SDXL, Pick-Style and Pick-Safety, simulating
diverse scenarios of reference mismatch. Our experiments validate that MaPO can
significantly improve alignment on Pick-Style and Pick-Safety and general
preference alignment when used with Pick-a-Pic v2, surpassing the base SDXL and
other existing methods. Our code, models, and datasets are publicly available
via https://mapo-t2i.github.ioSummary
AI-Generated Summary