Fine-Tuning tramite Self-Play di Modelli di Diffusione per la Generazione di Immagini da Testo
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation
February 15, 2024
Autori: Huizhuo Yuan, Zixiang Chen, Kaixuan Ji, Quanquan Gu
cs.AI
Abstract
Il fine-tuning dei modelli di diffusione rimane una frontiera poco esplorata nell'intelligenza artificiale generativa (GenAI), soprattutto se confrontata con i notevoli progressi ottenuti nel fine-tuning dei Large Language Models (LLM). Mentre modelli all'avanguardia come Stable Diffusion (SD) e SDXL si basano su un fine-tuning supervisionato, le loro prestazioni inevitabilmente raggiungono un plateau dopo aver elaborato un certo volume di dati. Recentemente, il reinforcement learning (RL) è stato utilizzato per ottimizzare i modelli di diffusione con dati di preferenza umana, ma richiede almeno due immagini (una "vincitrice" e una "perdente") per ogni prompt di testo. In questo articolo, introduciamo una tecnica innovativa chiamata self-play fine-tuning per modelli di diffusione (SPIN-Diffusion), in cui il modello di diffusione compete con le sue versioni precedenti, facilitando un processo iterativo di auto-miglioramento. Il nostro approccio offre un'alternativa alle tradizionali strategie di fine-tuning supervisionato e RL, migliorando significativamente sia le prestazioni del modello che l'allineamento. I nostri esperimenti sul dataset Pick-a-Pic rivelano che SPIN-Diffusion supera il metodo di fine-tuning supervisionato esistente in termini di allineamento alle preferenze umane e appeal visivo già dalla prima iterazione. Entro la seconda iterazione, supera le prestazioni dei metodi basati su RLHF in tutte le metriche, raggiungendo questi risultati con meno dati.
English
Fine-tuning Diffusion Models remains an underexplored frontier in generative
artificial intelligence (GenAI), especially when compared with the remarkable
progress made in fine-tuning Large Language Models (LLMs). While cutting-edge
diffusion models such as Stable Diffusion (SD) and SDXL rely on supervised
fine-tuning, their performance inevitably plateaus after seeing a certain
volume of data. Recently, reinforcement learning (RL) has been employed to
fine-tune diffusion models with human preference data, but it requires at least
two images ("winner" and "loser" images) for each text prompt. In this paper,
we introduce an innovative technique called self-play fine-tuning for diffusion
models (SPIN-Diffusion), where the diffusion model engages in competition with
its earlier versions, facilitating an iterative self-improvement process. Our
approach offers an alternative to conventional supervised fine-tuning and RL
strategies, significantly improving both model performance and alignment. Our
experiments on the Pick-a-Pic dataset reveal that SPIN-Diffusion outperforms
the existing supervised fine-tuning method in aspects of human preference
alignment and visual appeal right from its first iteration. By the second
iteration, it exceeds the performance of RLHF-based methods across all metrics,
achieving these results with less data.