텍스트-이미지 생성을 위한 확산 모델의 자기 주도 미세 조정
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation
February 15, 2024
저자: Huizhuo Yuan, Zixiang Chen, Kaixuan Ji, Quanquan Gu
cs.AI
초록
디퓨전 모델의 미세 조정은 생성형 인공지능(GenAI) 분야에서 아직 충분히 탐구되지 않은 영역으로, 특히 대형 언어 모델(LLMs)의 미세 조정에서 이루어진 놀라운 진전과 비교할 때 더욱 두드러진다. Stable Diffusion(SD) 및 SDXL과 같은 최첨단 디퓨전 모델은 지도 학습 기반 미세 조정에 의존하지만, 일정량의 데이터를 학습한 후에는 성능이 필연적으로 정체된다. 최근에는 인간 선호 데이터를 활용하여 디퓨전 모델을 미세 조정하기 위해 강화 학습(RL)이 도입되었으나, 이 방법은 각 텍스트 프롬프트에 대해 최소 두 개의 이미지("승자"와 "패자" 이미지)를 필요로 한다. 본 논문에서는 디퓨전 모델이 이전 버전과 경쟁하며 반복적인 자기 개선 과정을 촉진하는 자기 경쟁 미세 조정(self-play fine-tuning for diffusion models, SPIN-Diffusion)이라는 혁신적인 기법을 소개한다. 우리의 접근법은 기존의 지도 학습 및 RL 전략에 대한 대안을 제시하며, 모델 성능과 정렬(alignment)을 크게 향상시킨다. Pick-a-Pic 데이터셋에 대한 실험 결과, SPIN-Diffusion은 첫 번째 반복에서부터 인간 선호 정렬과 시각적 매력 측면에서 기존의 지도 학습 기반 미세 조정 방법을 능가함을 보여준다. 두 번째 반복에서는 모든 지표에서 RLHF 기반 방법의 성능을 초과하며, 더 적은 데이터로 이러한 결과를 달성한다.
English
Fine-tuning Diffusion Models remains an underexplored frontier in generative
artificial intelligence (GenAI), especially when compared with the remarkable
progress made in fine-tuning Large Language Models (LLMs). While cutting-edge
diffusion models such as Stable Diffusion (SD) and SDXL rely on supervised
fine-tuning, their performance inevitably plateaus after seeing a certain
volume of data. Recently, reinforcement learning (RL) has been employed to
fine-tune diffusion models with human preference data, but it requires at least
two images ("winner" and "loser" images) for each text prompt. In this paper,
we introduce an innovative technique called self-play fine-tuning for diffusion
models (SPIN-Diffusion), where the diffusion model engages in competition with
its earlier versions, facilitating an iterative self-improvement process. Our
approach offers an alternative to conventional supervised fine-tuning and RL
strategies, significantly improving both model performance and alignment. Our
experiments on the Pick-a-Pic dataset reveal that SPIN-Diffusion outperforms
the existing supervised fine-tuning method in aspects of human preference
alignment and visual appeal right from its first iteration. By the second
iteration, it exceeds the performance of RLHF-based methods across all metrics,
achieving these results with less data.