Alignement des modèles de diffusion par optimisation de l'utilité humaine
Aligning Diffusion Models by Optimizing Human Utility
April 6, 2024
Auteurs: Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Yusuke Kato, Kazuki Kozuka
cs.AI
Résumé
Nous présentons Diffusion-KTO, une nouvelle approche pour aligner les modèles de diffusion texte-image en formulant l'objectif d'alignement comme la maximisation de l'utilité humaine attendue. Comme cet objectif s'applique à chaque génération de manière indépendante, Diffusion-KTO ne nécessite ni la collecte de données de préférences par paires coûteuses ni l'entraînement d'un modèle de récompense complexe. À la place, notre objectif requiert des signaux de feedback binaires simples par image, par exemple des "j'aime" ou "je n'aime pas", qui sont largement disponibles. Après un ajustement fin utilisant Diffusion-KTO, les modèles de diffusion texte-image montrent une performance supérieure comparée aux techniques existantes, y compris l'ajustement fin supervisé et Diffusion-DPO, à la fois en termes de jugement humain et de métriques d'évaluation automatiques telles que PickScore et ImageReward. Globalement, Diffusion-KTO permet d'exploiter le potentiel des signaux binaires par image facilement accessibles et élargit l'applicabilité de l'alignement des modèles de diffusion texte-image avec les préférences humaines.
English
We present Diffusion-KTO, a novel approach for aligning text-to-image
diffusion models by formulating the alignment objective as the maximization of
expected human utility. Since this objective applies to each generation
independently, Diffusion-KTO does not require collecting costly pairwise
preference data nor training a complex reward model. Instead, our objective
requires simple per-image binary feedback signals, e.g. likes or dislikes,
which are abundantly available. After fine-tuning using Diffusion-KTO,
text-to-image diffusion models exhibit superior performance compared to
existing techniques, including supervised fine-tuning and Diffusion-DPO, both
in terms of human judgment and automatic evaluation metrics such as PickScore
and ImageReward. Overall, Diffusion-KTO unlocks the potential of leveraging
readily available per-image binary signals and broadens the applicability of
aligning text-to-image diffusion models with human preferences.Summary
AI-Generated Summary