Self-Play-Feinabstimmung von Diffusionsmodellen für die Text-zu-Bild-Generierung
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation
February 15, 2024
papers.authors: Huizhuo Yuan, Zixiang Chen, Kaixuan Ji, Quanquan Gu
cs.AI
papers.abstract
Das Feinabstimmen von Diffusionsmodellen bleibt eine weitgehend unerforschte Grenze in der generativen künstlichen Intelligenz (GenAI), insbesondere im Vergleich zu den bemerkenswerten Fortschritten, die beim Feinabstimmen großer Sprachmodelle (LLMs) erzielt wurden. Während modernste Diffusionsmodelle wie Stable Diffusion (SD) und SDXL auf überwachtes Feinabstimmen angewiesen sind, erreicht ihre Leistung unweigerlich ein Plateau, nachdem eine bestimmte Datenmenge verarbeitet wurde. Kürzlich wurde bestärkendes Lernen (Reinforcement Learning, RL) eingesetzt, um Diffusionsmodelle mit Daten zu menschlichen Präferenzen fein abzustimmen, doch dies erfordert mindestens zwei Bilder („Gewinner“- und „Verlierer“-Bilder) für jeden Textprompt. In diesem Artikel stellen wir eine innovative Technik namens Self-Play-Feinabstimmen für Diffusionsmodelle (SPIN-Diffusion) vor, bei der das Diffusionsmodell mit seinen früheren Versionen in Wettbewerb tritt und so einen iterativen Selbstverbesserungsprozess ermöglicht. Unser Ansatz bietet eine Alternative zu herkömmlichen überwachten Feinabstimmungs- und RL-Strategien und verbessert sowohl die Modellleistung als auch die Ausrichtung signifikant. Unsere Experimente mit dem Pick-a-Pic-Datensatz zeigen, dass SPIN-Diffusion bereits in der ersten Iteration die bestehende Methode des überwachten Feinabstimmens in Bezug auf die Ausrichtung an menschlichen Präferenzen und die visuelle Attraktivität übertrifft. In der zweiten Iteration übertrifft es die Leistung von RLHF-basierten Methoden in allen Metriken und erreicht diese Ergebnisse mit weniger Daten.
English
Fine-tuning Diffusion Models remains an underexplored frontier in generative
artificial intelligence (GenAI), especially when compared with the remarkable
progress made in fine-tuning Large Language Models (LLMs). While cutting-edge
diffusion models such as Stable Diffusion (SD) and SDXL rely on supervised
fine-tuning, their performance inevitably plateaus after seeing a certain
volume of data. Recently, reinforcement learning (RL) has been employed to
fine-tune diffusion models with human preference data, but it requires at least
two images ("winner" and "loser" images) for each text prompt. In this paper,
we introduce an innovative technique called self-play fine-tuning for diffusion
models (SPIN-Diffusion), where the diffusion model engages in competition with
its earlier versions, facilitating an iterative self-improvement process. Our
approach offers an alternative to conventional supervised fine-tuning and RL
strategies, significantly improving both model performance and alignment. Our
experiments on the Pick-a-Pic dataset reveal that SPIN-Diffusion outperforms
the existing supervised fine-tuning method in aspects of human preference
alignment and visual appeal right from its first iteration. By the second
iteration, it exceeds the performance of RLHF-based methods across all metrics,
achieving these results with less data.