Ajuste Fino por Auto-Jogo de Modelos de Difusão para Geração de Imagens a partir de Texto
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation
February 15, 2024
Autores: Huizhuo Yuan, Zixiang Chen, Kaixuan Ji, Quanquan Gu
cs.AI
Resumo
O ajuste fino de modelos de difusão continua sendo uma fronteira pouco explorada na inteligência artificial generativa (GenAI), especialmente quando comparado com o progresso notável alcançado no ajuste fino de Modelos de Linguagem de Grande Escala (LLMs). Enquanto modelos de difusão de ponta, como o Stable Diffusion (SD) e o SDXL, dependem de ajuste fino supervisionado, seu desempenho inevitavelmente atinge um platô após serem expostos a um certo volume de dados. Recentemente, o aprendizado por reforço (RL) foi empregado para ajustar modelos de difusão com dados de preferência humana, mas ele requer pelo menos duas imagens (uma "vencedora" e uma "perdedora") para cada prompt de texto. Neste artigo, introduzimos uma técnica inovadora chamada ajuste fino por autocompetição para modelos de difusão (SPIN-Diffusion), na qual o modelo de difusão compete com suas versões anteriores, facilitando um processo iterativo de autossuperação. Nossa abordagem oferece uma alternativa às estratégias convencionais de ajuste fino supervisionado e RL, melhorando significativamente tanto o desempenho do modelo quanto seu alinhamento. Nossos experimentos no conjunto de dados Pick-a-Pic revelam que o SPIN-Diffusion supera o método existente de ajuste fino supervisionado em termos de alinhamento com preferências humanas e apelo visual já na primeira iteração. Na segunda iteração, ele ultrapassa o desempenho de métodos baseados em RLHF em todas as métricas, alcançando esses resultados com menos dados.
English
Fine-tuning Diffusion Models remains an underexplored frontier in generative
artificial intelligence (GenAI), especially when compared with the remarkable
progress made in fine-tuning Large Language Models (LLMs). While cutting-edge
diffusion models such as Stable Diffusion (SD) and SDXL rely on supervised
fine-tuning, their performance inevitably plateaus after seeing a certain
volume of data. Recently, reinforcement learning (RL) has been employed to
fine-tune diffusion models with human preference data, but it requires at least
two images ("winner" and "loser" images) for each text prompt. In this paper,
we introduce an innovative technique called self-play fine-tuning for diffusion
models (SPIN-Diffusion), where the diffusion model engages in competition with
its earlier versions, facilitating an iterative self-improvement process. Our
approach offers an alternative to conventional supervised fine-tuning and RL
strategies, significantly improving both model performance and alignment. Our
experiments on the Pick-a-Pic dataset reveal that SPIN-Diffusion outperforms
the existing supervised fine-tuning method in aspects of human preference
alignment and visual appeal right from its first iteration. By the second
iteration, it exceeds the performance of RLHF-based methods across all metrics,
achieving these results with less data.