ChatPaper.aiChatPaper

Выравнивание моделей диффузии путем оптимизации человеческой полезности.

Aligning Diffusion Models by Optimizing Human Utility

April 6, 2024
Авторы: Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Yusuke Kato, Kazuki Kozuka
cs.AI

Аннотация

Мы представляем Diffusion-KTO, новый подход к выравниванию моделей диффузии текста-изображения путем формулирования цели выравнивания как максимизации ожидаемой полезности для человека. Поскольку эта цель применяется к каждому поколению независимо, Diffusion-KTO не требует сбора дорогих данных предпочтений попарно или обучения сложной модели вознаграждения. Вместо этого наша цель требует простых сигналов обратной связи для каждого изображения, например, лайков или дизлайков, которые изобилируют. После донастройки с использованием Diffusion-KTO модели диффузии текста-изображения проявляют превосходную производительность по сравнению с существующими техниками, включая надзорную донастройку и Diffusion-DPO, как с точки зрения человеческого суждения, так и автоматических метрик оценки, таких как PickScore и ImageReward. В целом, Diffusion-KTO разблокирует потенциал использования легко доступных бинарных сигналов для каждого изображения и расширяет применимость выравнивания моделей диффузии текста-изображения с предпочтениями человека.
English
We present Diffusion-KTO, a novel approach for aligning text-to-image diffusion models by formulating the alignment objective as the maximization of expected human utility. Since this objective applies to each generation independently, Diffusion-KTO does not require collecting costly pairwise preference data nor training a complex reward model. Instead, our objective requires simple per-image binary feedback signals, e.g. likes or dislikes, which are abundantly available. After fine-tuning using Diffusion-KTO, text-to-image diffusion models exhibit superior performance compared to existing techniques, including supervised fine-tuning and Diffusion-DPO, both in terms of human judgment and automatic evaluation metrics such as PickScore and ImageReward. Overall, Diffusion-KTO unlocks the potential of leveraging readily available per-image binary signals and broadens the applicability of aligning text-to-image diffusion models with human preferences.

Summary

AI-Generated Summary

PDF151December 15, 2024