ChatPaper.aiChatPaper

Alinhando Modelos de Difusão por meio da Otimização da Utilidade Humana

Aligning Diffusion Models by Optimizing Human Utility

April 6, 2024
Autores: Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Yusuke Kato, Kazuki Kozuka
cs.AI

Resumo

Apresentamos o Diffusion-KTO, uma abordagem inovadora para alinhar modelos de difusão de texto para imagem, formulando o objetivo de alinhamento como a maximização da utilidade humana esperada. Como esse objetivo se aplica a cada geração de forma independente, o Diffusion-KTO não requer a coleta de dados de preferência pareada, que são custosos, nem o treinamento de um modelo de recompensa complexo. Em vez disso, nosso objetivo requer sinais binários simples por imagem, como "curtidas" ou "não curtidas", que estão amplamente disponíveis. Após o ajuste fino usando o Diffusion-KTO, os modelos de difusão de texto para imagem exibem desempenho superior em comparação com técnicas existentes, incluindo ajuste fino supervisionado e Diffusion-DPO, tanto em termos de julgamento humano quanto de métricas de avaliação automática, como PickScore e ImageReward. No geral, o Diffusion-KTO desbloqueia o potencial de aproveitar sinais binários por imagem prontamente disponíveis e amplia a aplicabilidade do alinhamento de modelos de difusão de texto para imagem com as preferências humanas.
English
We present Diffusion-KTO, a novel approach for aligning text-to-image diffusion models by formulating the alignment objective as the maximization of expected human utility. Since this objective applies to each generation independently, Diffusion-KTO does not require collecting costly pairwise preference data nor training a complex reward model. Instead, our objective requires simple per-image binary feedback signals, e.g. likes or dislikes, which are abundantly available. After fine-tuning using Diffusion-KTO, text-to-image diffusion models exhibit superior performance compared to existing techniques, including supervised fine-tuning and Diffusion-DPO, both in terms of human judgment and automatic evaluation metrics such as PickScore and ImageReward. Overall, Diffusion-KTO unlocks the potential of leveraging readily available per-image binary signals and broadens the applicability of aligning text-to-image diffusion models with human preferences.
PDF151December 15, 2024