Выравнивание моделей диффузии путем оптимизации человеческой полезности.
Aligning Diffusion Models by Optimizing Human Utility
April 6, 2024
Авторы: Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Yusuke Kato, Kazuki Kozuka
cs.AI
Аннотация
Мы представляем Diffusion-KTO, новый подход к выравниванию моделей диффузии текста-изображения путем формулирования цели выравнивания как максимизации ожидаемой полезности для человека. Поскольку эта цель применяется к каждому поколению независимо, Diffusion-KTO не требует сбора дорогих данных предпочтений попарно или обучения сложной модели вознаграждения. Вместо этого наша цель требует простых сигналов обратной связи для каждого изображения, например, лайков или дизлайков, которые изобилируют. После донастройки с использованием Diffusion-KTO модели диффузии текста-изображения проявляют превосходную производительность по сравнению с существующими техниками, включая надзорную донастройку и Diffusion-DPO, как с точки зрения человеческого суждения, так и автоматических метрик оценки, таких как PickScore и ImageReward. В целом, Diffusion-KTO разблокирует потенциал использования легко доступных бинарных сигналов для каждого изображения и расширяет применимость выравнивания моделей диффузии текста-изображения с предпочтениями человека.
English
We present Diffusion-KTO, a novel approach for aligning text-to-image
diffusion models by formulating the alignment objective as the maximization of
expected human utility. Since this objective applies to each generation
independently, Diffusion-KTO does not require collecting costly pairwise
preference data nor training a complex reward model. Instead, our objective
requires simple per-image binary feedback signals, e.g. likes or dislikes,
which are abundantly available. After fine-tuning using Diffusion-KTO,
text-to-image diffusion models exhibit superior performance compared to
existing techniques, including supervised fine-tuning and Diffusion-DPO, both
in terms of human judgment and automatic evaluation metrics such as PickScore
and ImageReward. Overall, Diffusion-KTO unlocks the potential of leveraging
readily available per-image binary signals and broadens the applicability of
aligning text-to-image diffusion models with human preferences.Summary
AI-Generated Summary