Affinage par auto-apprentissage des modèles de diffusion pour la génération d'images à partir de texte.
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation
February 15, 2024
papers.authors: Huizhuo Yuan, Zixiang Chen, Kaixuan Ji, Quanquan Gu
cs.AI
papers.abstract
Le fine-tuning des modèles de diffusion reste une frontière peu explorée dans l'intelligence artificielle générative (GenAI), surtout en comparaison avec les progrès remarquables réalisés dans le fine-tuning des grands modèles de langage (LLMs). Bien que les modèles de diffusion de pointe tels que Stable Diffusion (SD) et SDXL reposent sur un fine-tuning supervisé, leurs performances atteignent inévitablement un plateau après avoir été exposés à un certain volume de données. Récemment, l'apprentissage par renforcement (RL) a été utilisé pour affiner ces modèles avec des données de préférences humaines, mais cela nécessite au moins deux images (une "gagnante" et une "perdante") pour chaque prompt texte. Dans cet article, nous introduisons une technique innovante appelée fine-tuning par auto-confrontation pour les modèles de diffusion (SPIN-Diffusion), où le modèle de diffusion entre en compétition avec ses versions antérieures, facilitant ainsi un processus d'amélioration itérative. Notre approche offre une alternative aux stratégies traditionnelles de fine-tuning supervisé et par RL, améliorant significativement à la fois les performances du modèle et son alignement. Nos expériences sur le jeu de données Pick-a-Pic révèlent que SPIN-Diffusion surpasse la méthode de fine-tuning supervisé existante en termes d'alignement avec les préférences humaines et d'attrait visuel dès sa première itération. Dès la deuxième itération, il dépasse les performances des méthodes basées sur RLHF sur tous les indicateurs, atteignant ces résultats avec moins de données.
English
Fine-tuning Diffusion Models remains an underexplored frontier in generative
artificial intelligence (GenAI), especially when compared with the remarkable
progress made in fine-tuning Large Language Models (LLMs). While cutting-edge
diffusion models such as Stable Diffusion (SD) and SDXL rely on supervised
fine-tuning, their performance inevitably plateaus after seeing a certain
volume of data. Recently, reinforcement learning (RL) has been employed to
fine-tune diffusion models with human preference data, but it requires at least
two images ("winner" and "loser" images) for each text prompt. In this paper,
we introduce an innovative technique called self-play fine-tuning for diffusion
models (SPIN-Diffusion), where the diffusion model engages in competition with
its earlier versions, facilitating an iterative self-improvement process. Our
approach offers an alternative to conventional supervised fine-tuning and RL
strategies, significantly improving both model performance and alignment. Our
experiments on the Pick-a-Pic dataset reveal that SPIN-Diffusion outperforms
the existing supervised fine-tuning method in aspects of human preference
alignment and visual appeal right from its first iteration. By the second
iteration, it exceeds the performance of RLHF-based methods across all metrics,
achieving these results with less data.