Zelfspel-finetuning van diffusiemodellen voor tekst-naar-beeldgeneratie
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation
February 15, 2024
Auteurs: Huizhuo Yuan, Zixiang Chen, Kaixuan Ji, Quanquan Gu
cs.AI
Samenvatting
Het finetunen van diffusiemodellen blijft een onderbelicht gebied in generatieve kunstmatige intelligentie (GenAI), vooral in vergelijking met de opmerkelijke vooruitgang die is geboekt bij het finetunen van grote taalmmodellen (LLM's). Hoewel state-of-the-art diffusiemodellen zoals Stable Diffusion (SD) en SDXL vertrouwen op supervised finetuning, stagneert hun prestaties onvermijdelijk na het verwerken van een bepaalde hoeveelheid data. Recentelijk is reinforcement learning (RL) ingezet om diffusiemodellen te finetunen met gegevens over menselijke voorkeuren, maar dit vereist minimaal twee afbeeldingen ("winnaar" en "verliezer" afbeeldingen) voor elke tekstprompt. In dit artikel introduceren we een innovatieve techniek genaamd self-play finetuning voor diffusiemodellen (SPIN-Diffusion), waarbij het diffusiemodel in competitie gaat met eerdere versies van zichzelf, wat een iteratief zelfverbeteringsproces mogelijk maakt. Onze aanpak biedt een alternatief voor conventionele supervised finetuning en RL-strategieën, en verbetert zowel de modelprestaties als de afstemming aanzienlijk. Onze experimenten op de Pick-a-Pic dataset laten zien dat SPIN-Diffusion de bestaande supervised finetuning-methode al vanaf de eerste iteratie overtreft op het gebied van afstemming op menselijke voorkeuren en visuele aantrekkingskracht. Tegen de tweede iteratie overstijgt het de prestaties van RLHF-gebaseerde methoden op alle metrieken, en bereikt het deze resultaten met minder data.
English
Fine-tuning Diffusion Models remains an underexplored frontier in generative
artificial intelligence (GenAI), especially when compared with the remarkable
progress made in fine-tuning Large Language Models (LLMs). While cutting-edge
diffusion models such as Stable Diffusion (SD) and SDXL rely on supervised
fine-tuning, their performance inevitably plateaus after seeing a certain
volume of data. Recently, reinforcement learning (RL) has been employed to
fine-tune diffusion models with human preference data, but it requires at least
two images ("winner" and "loser" images) for each text prompt. In this paper,
we introduce an innovative technique called self-play fine-tuning for diffusion
models (SPIN-Diffusion), where the diffusion model engages in competition with
its earlier versions, facilitating an iterative self-improvement process. Our
approach offers an alternative to conventional supervised fine-tuning and RL
strategies, significantly improving both model performance and alignment. Our
experiments on the Pick-a-Pic dataset reveal that SPIN-Diffusion outperforms
the existing supervised fine-tuning method in aspects of human preference
alignment and visual appeal right from its first iteration. By the second
iteration, it exceeds the performance of RLHF-based methods across all metrics,
achieving these results with less data.