Self-Play-Feinabstimmung von Diffusionsmodellen für die Text-zu-Bild-Generierung

papers.abstract

Das Feinabstimmen von Diffusionsmodellen bleibt eine weitgehend unerforschte Grenze in der generativen künstlichen Intelligenz (GenAI), insbesondere im Vergleich zu den bemerkenswerten Fortschritten, die beim Feinabstimmen großer Sprachmodelle (LLMs) erzielt wurden. Während modernste Diffusionsmodelle wie Stable Diffusion (SD) und SDXL auf überwachtes Feinabstimmen angewiesen sind, erreicht ihre Leistung unweigerlich ein Plateau, nachdem eine bestimmte Datenmenge verarbeitet wurde. Kürzlich wurde bestärkendes Lernen (Reinforcement Learning, RL) eingesetzt, um Diffusionsmodelle mit Daten zu menschlichen Präferenzen fein abzustimmen, doch dies erfordert mindestens zwei Bilder („Gewinner“- und „Verlierer“-Bilder) für jeden Textprompt. In diesem Artikel stellen wir eine innovative Technik namens Self-Play-Feinabstimmen für Diffusionsmodelle (SPIN-Diffusion) vor, bei der das Diffusionsmodell mit seinen früheren Versionen in Wettbewerb tritt und so einen iterativen Selbstverbesserungsprozess ermöglicht. Unser Ansatz bietet eine Alternative zu herkömmlichen überwachten Feinabstimmungs- und RL-Strategien und verbessert sowohl die Modellleistung als auch die Ausrichtung signifikant. Unsere Experimente mit dem Pick-a-Pic-Datensatz zeigen, dass SPIN-Diffusion bereits in der ersten Iteration die bestehende Methode des überwachten Feinabstimmens in Bezug auf die Ausrichtung an menschlichen Präferenzen und die visuelle Attraktivität übertrifft. In der zweiten Iteration übertrifft es die Leistung von RLHF-basierten Methoden in allen Metriken und erreicht diese Ergebnisse mit weniger Daten.

English

Fine-tuning Diffusion Models remains an underexplored frontier in generative artificial intelligence (GenAI), especially when compared with the remarkable progress made in fine-tuning Large Language Models (LLMs). While cutting-edge diffusion models such as Stable Diffusion (SD) and SDXL rely on supervised fine-tuning, their performance inevitably plateaus after seeing a certain volume of data. Recently, reinforcement learning (RL) has been employed to fine-tune diffusion models with human preference data, but it requires at least two images ("winner" and "loser" images) for each text prompt. In this paper, we introduce an innovative technique called self-play fine-tuning for diffusion models (SPIN-Diffusion), where the diffusion model engages in competition with its earlier versions, facilitating an iterative self-improvement process. Our approach offers an alternative to conventional supervised fine-tuning and RL strategies, significantly improving both model performance and alignment. Our experiments on the Pick-a-Pic dataset reveal that SPIN-Diffusion outperforms the existing supervised fine-tuning method in aspects of human preference alignment and visual appeal right from its first iteration. By the second iteration, it exceeds the performance of RLHF-based methods across all metrics, achieving these results with less data.

Self-Play-Feinabstimmung von Diffusionsmodellen für die Text-zu-Bild-Generierung

Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation

papers.abstract

Support