ChatPaper.aiChatPaper

Afinamiento por Autojuego de Modelos de Difusión para la Generación de Imágenes a partir de Texto

Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation

February 15, 2024
Autores: Huizhuo Yuan, Zixiang Chen, Kaixuan Ji, Quanquan Gu
cs.AI

Resumen

El ajuste fino de modelos de difusión sigue siendo una frontera poco explorada en la inteligencia artificial generativa (GenAI), especialmente en comparación con los notables avances logrados en el ajuste fino de modelos de lenguaje de gran escala (LLMs). Si bien modelos de difusión de vanguardia como Stable Diffusion (SD) y SDXL dependen del ajuste fino supervisado, su rendimiento inevitablemente se estanca después de procesar un cierto volumen de datos. Recientemente, se ha empleado el aprendizaje por refuerzo (RL) para ajustar modelos de difusión con datos de preferencias humanas, pero este enfoque requiere al menos dos imágenes ("ganadora" y "perdedora") por cada indicación de texto. En este artículo, presentamos una técnica innovadora llamada ajuste fino por autocompetencia para modelos de difusión (SPIN-Diffusion), donde el modelo de difusión compite con sus versiones anteriores, facilitando un proceso iterativo de automejora. Nuestro enfoque ofrece una alternativa a las estrategias convencionales de ajuste fino supervisado y RL, mejorando significativamente tanto el rendimiento del modelo como su alineación. Nuestros experimentos en el conjunto de datos Pick-a-Pic revelan que SPIN-Diffusion supera al método existente de ajuste fino supervisado en aspectos de alineación con preferencias humanas y atractivo visual desde su primera iteración. Para la segunda iteración, supera el rendimiento de los métodos basados en RLHF en todas las métricas, logrando estos resultados con menos datos.
English
Fine-tuning Diffusion Models remains an underexplored frontier in generative artificial intelligence (GenAI), especially when compared with the remarkable progress made in fine-tuning Large Language Models (LLMs). While cutting-edge diffusion models such as Stable Diffusion (SD) and SDXL rely on supervised fine-tuning, their performance inevitably plateaus after seeing a certain volume of data. Recently, reinforcement learning (RL) has been employed to fine-tune diffusion models with human preference data, but it requires at least two images ("winner" and "loser" images) for each text prompt. In this paper, we introduce an innovative technique called self-play fine-tuning for diffusion models (SPIN-Diffusion), where the diffusion model engages in competition with its earlier versions, facilitating an iterative self-improvement process. Our approach offers an alternative to conventional supervised fine-tuning and RL strategies, significantly improving both model performance and alignment. Our experiments on the Pick-a-Pic dataset reveal that SPIN-Diffusion outperforms the existing supervised fine-tuning method in aspects of human preference alignment and visual appeal right from its first iteration. By the second iteration, it exceeds the performance of RLHF-based methods across all metrics, achieving these results with less data.

Summary

AI-Generated Summary

PDF364December 15, 2024