Самостоятельная донастройка диффузионных моделей для генерации изображений по тексту
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation
February 15, 2024
Авторы: Huizhuo Yuan, Zixiang Chen, Kaixuan Ji, Quanquan Gu
cs.AI
Аннотация
Тонкая настройка диффузионных моделей остается малоизученной областью в генеративном искусственном интеллекте (GenAI), особенно в сравнении с впечатляющим прогрессом, достигнутым в тонкой настройке крупных языковых моделей (LLM). Хотя передовые диффузионные модели, такие как Stable Diffusion (SD) и SDXL, используют контролируемую тонкую настройку, их производительность неизбежно выходит на плато после обработки определенного объема данных. Недавно для тонкой настройки диффузионных моделей с использованием данных о человеческих предпочтений был применен метод обучения с подкреплением (RL), однако он требует наличия как минимум двух изображений («победителя» и «проигравшего») для каждого текстового запроса. В данной работе мы представляем инновационную технику, называемую тонкой настройкой через самообучение для диффузионных моделей (SPIN-Diffusion), в которой модель соревнуется со своими предыдущими версиями, что способствует итеративному процессу самосовершенствования. Наш подход предлагает альтернативу традиционным методам контролируемой тонкой настройки и стратегиям RL, значительно улучшая как производительность модели, так и ее соответствие ожиданиям. Эксперименты на наборе данных Pick-a-Pic показывают, что SPIN-Diffusion превосходит существующий метод контролируемой тонкой настройки по соответствию человеческим предпочтениям и визуальной привлекательности уже на первой итерации. К второй итерации она превосходит методы, основанные на RLHF, по всем метрикам, достигая этих результатов с меньшим объемом данных.
English
Fine-tuning Diffusion Models remains an underexplored frontier in generative
artificial intelligence (GenAI), especially when compared with the remarkable
progress made in fine-tuning Large Language Models (LLMs). While cutting-edge
diffusion models such as Stable Diffusion (SD) and SDXL rely on supervised
fine-tuning, their performance inevitably plateaus after seeing a certain
volume of data. Recently, reinforcement learning (RL) has been employed to
fine-tune diffusion models with human preference data, but it requires at least
two images ("winner" and "loser" images) for each text prompt. In this paper,
we introduce an innovative technique called self-play fine-tuning for diffusion
models (SPIN-Diffusion), where the diffusion model engages in competition with
its earlier versions, facilitating an iterative self-improvement process. Our
approach offers an alternative to conventional supervised fine-tuning and RL
strategies, significantly improving both model performance and alignment. Our
experiments on the Pick-a-Pic dataset reveal that SPIN-Diffusion outperforms
the existing supervised fine-tuning method in aspects of human preference
alignment and visual appeal right from its first iteration. By the second
iteration, it exceeds the performance of RLHF-based methods across all metrics,
achieving these results with less data.Summary
AI-Generated Summary