ChatPaper.aiChatPaper

Выравнивание модели диффузии с использованием оптимизации прямых предпочтений

Diffusion Model Alignment Using Direct Preference Optimization

November 21, 2023
Авторы: Bram Wallace, Meihua Dang, Rafael Rafailov, Linqi Zhou, Aaron Lou, Senthil Purushwalkam, Stefano Ermon, Caiming Xiong, Shafiq Joty, Nikhil Naik
cs.AI

Аннотация

Крупные языковые модели (LLM) дорабатываются с использованием данных человеческих сравнений методами обучения с подкреплением на основе человеческой обратной связи (RLHF), чтобы лучше соответствовать предпочтениям пользователей. В отличие от LLM, обучение на основе человеческих предпочтений не получило широкого распространения в диффузионных моделях для генерации изображений по тексту; лучший существующий подход заключается в доработке предварительно обученной модели с использованием тщательно отобранных высококачественных изображений и подписей для улучшения визуальной привлекательности и соответствия тексту. Мы предлагаем метод Diffusion-DPO, который позволяет адаптировать диффузионные модели к человеческим предпочтениям путем прямой оптимизации на основе данных человеческих сравнений. Diffusion-DPO адаптирован из недавно разработанного метода Direct Preference Optimization (DPO), более простой альтернативы RLHF, который напрямую оптимизирует политику, наилучшим образом удовлетворяющую человеческим предпочтениям в рамках задачи классификации. Мы переформулируем DPO с учетом понятия правдоподобия для диффузионных моделей, используя нижнюю границу доказательства для вывода дифференцируемой целевой функции. Используя набор данных Pick-a-Pic, содержащий 851 тыс. парных предпочтений, собранных с помощью краудсорсинга, мы дорабатываем базовую модель современной модели Stable Diffusion XL (SDXL)-1.0 с помощью Diffusion-DPO. Наша доработанная базовая модель значительно превосходит как базовую SDXL-1.0, так и более крупную модель SDXL-1.0, включающую дополнительную модель уточнения, в оценке людьми, улучшая визуальную привлекательность и соответствие запросу. Мы также разрабатываем вариант, использующий обратную связь от ИИ, который демонстрирует сопоставимую производительность с обучением на человеческих предпочтениях, открывая путь для масштабирования методов адаптации диффузионных моделей.
English
Large language models (LLMs) are fine-tuned using human comparison data with Reinforcement Learning from Human Feedback (RLHF) methods to make them better aligned with users' preferences. In contrast to LLMs, human preference learning has not been widely explored in text-to-image diffusion models; the best existing approach is to fine-tune a pretrained model using carefully curated high quality images and captions to improve visual appeal and text alignment. We propose Diffusion-DPO, a method to align diffusion models to human preferences by directly optimizing on human comparison data. Diffusion-DPO is adapted from the recently developed Direct Preference Optimization (DPO), a simpler alternative to RLHF which directly optimizes a policy that best satisfies human preferences under a classification objective. We re-formulate DPO to account for a diffusion model notion of likelihood, utilizing the evidence lower bound to derive a differentiable objective. Using the Pick-a-Pic dataset of 851K crowdsourced pairwise preferences, we fine-tune the base model of the state-of-the-art Stable Diffusion XL (SDXL)-1.0 model with Diffusion-DPO. Our fine-tuned base model significantly outperforms both base SDXL-1.0 and the larger SDXL-1.0 model consisting of an additional refinement model in human evaluation, improving visual appeal and prompt alignment. We also develop a variant that uses AI feedback and has comparable performance to training on human preferences, opening the door for scaling of diffusion model alignment methods.

Summary

AI-Generated Summary

PDF503December 15, 2024