Alineación de Modelos de Difusión mediante la Optimización de la Utilidad Humana
Aligning Diffusion Models by Optimizing Human Utility
April 6, 2024
Autores: Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Yusuke Kato, Kazuki Kozuka
cs.AI
Resumen
Presentamos Diffusion-KTO, un enfoque novedoso para alinear modelos de difusión de texto a imagen mediante la formulación del objetivo de alineación como la maximización de la utilidad humana esperada. Dado que este objetivo se aplica a cada generación de manera independiente, Diffusion-KTO no requiere la recopilación de costosos datos de preferencias por pares ni el entrenamiento de un modelo de recompensa complejo. En su lugar, nuestro objetivo requiere señales binarias simples por imagen, como "me gusta" o "no me gusta", que están ampliamente disponibles. Después del ajuste fino utilizando Diffusion-KTO, los modelos de difusión de texto a imagen muestran un rendimiento superior en comparación con las técnicas existentes, incluido el ajuste fino supervisado y Diffusion-DPO, tanto en términos de juicio humano como de métricas de evaluación automática como PickScore e ImageReward. En general, Diffusion-KTO desbloquea el potencial de aprovechar las señales binarias por imagen fácilmente disponibles y amplía la aplicabilidad de alinear modelos de difusión de texto a imagen con las preferencias humanas.
English
We present Diffusion-KTO, a novel approach for aligning text-to-image
diffusion models by formulating the alignment objective as the maximization of
expected human utility. Since this objective applies to each generation
independently, Diffusion-KTO does not require collecting costly pairwise
preference data nor training a complex reward model. Instead, our objective
requires simple per-image binary feedback signals, e.g. likes or dislikes,
which are abundantly available. After fine-tuning using Diffusion-KTO,
text-to-image diffusion models exhibit superior performance compared to
existing techniques, including supervised fine-tuning and Diffusion-DPO, both
in terms of human judgment and automatic evaluation metrics such as PickScore
and ImageReward. Overall, Diffusion-KTO unlocks the potential of leveraging
readily available per-image binary signals and broadens the applicability of
aligning text-to-image diffusion models with human preferences.Summary
AI-Generated Summary