ChatPaper.aiChatPaper

셀프 플레이 파인튜닝은 약한 언어 모델을 강력한 언어 모델로 변환한다

Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models

January 2, 2024
저자: Zixiang Chen, Yihe Deng, Huizhuo Yuan, Kaixuan Ji, Quanquan Gu
cs.AI

초록

인간이 주석을 단 데이터의 힘을 활용한 지도 미세 조정(Supervised Fine-Tuning, SFT)은 대규모 언어 모델(Large Language Models, LLMs)의 발전에 있어 핵심적인 역할을 합니다. 본 논문에서는 추가적인 인간 주석 데이터를 획득할 필요 없이 약한 LLM을 강력한 LLM으로 성장시킬 가능성을 탐구합니다. 우리는 지도 미세 조정된 모델에서 시작하는 새로운 미세 조정 방법인 Self-Play fIne-tuNing(SPIN)을 제안합니다. SPIN의 핵심은 LLM이 자신의 인스턴스와 대결하며 능력을 개선하는 자기 대결(self-play) 메커니즘입니다. 구체적으로, LLM은 이전 반복에서 생성한 데이터를 활용하여 훈련 데이터를 생성하고, 이러한 자기 생성 응답과 인간 주석 데이터에서 얻은 응답을 구별함으로써 정책을 개선합니다. 우리의 방법은 초기 모델에서 강력한 모델로 LLM을 점진적으로 발전시켜 SFT를 위한 인간 주석 시연 데이터의 잠재력을 최대한 발휘합니다. 이론적으로, 우리는 이 방법의 훈련 목적 함수의 전역 최적점이 LLM 정책이 목표 데이터 분포와 일치할 때만 달성됨을 증명합니다. 실험적으로, 우리는 HuggingFace Open LLM Leaderboard, MT-Bench, Big-Bench의 데이터셋을 포함한 여러 벤치마크 데이터셋에서 이 방법을 평가합니다. 결과는 SPIN이 다양한 벤치마크에서 LLM의 성능을 크게 향상시킬 수 있으며, 추가 GPT-4 선호 데이터로 보강된 직접 선호 최적화(Direct Preference Optimization, DPO)를 통해 훈련된 모델을 능가할 수도 있음을 보여줍니다. 이는 전문 상대가 필요 없이 LLM에서 인간 수준의 성능을 달성할 수 있는 자기 대결의 가능성을 밝힙니다.
English
Harnessing the power of human-annotated data through Supervised Fine-Tuning (SFT) is pivotal for advancing Large Language Models (LLMs). In this paper, we delve into the prospect of growing a strong LLM out of a weak one without the need for acquiring additional human-annotated data. We propose a new fine-tuning method called Self-Play fIne-tuNing (SPIN), which starts from a supervised fine-tuned model. At the heart of SPIN lies a self-play mechanism, where the LLM refines its capability by playing against instances of itself. More specifically, the LLM generates its own training data from its previous iterations, refining its policy by discerning these self-generated responses from those obtained from human-annotated data. Our method progressively elevates the LLM from a nascent model to a formidable one, unlocking the full potential of human-annotated demonstration data for SFT. Theoretically, we prove that the global optimum to the training objective function of our method is achieved only when the LLM policy aligns with the target data distribution. Empirically, we evaluate our method on several benchmark datasets including the HuggingFace Open LLM Leaderboard, MT-Bench, and datasets from Big-Bench. Our results show that SPIN can significantly improve the LLM's performance across a variety of benchmarks and even outperform models trained through direct preference optimization (DPO) supplemented with extra GPT-4 preference data. This sheds light on the promise of self-play, enabling the achievement of human-level performance in LLMs without the need for expert opponents.
PDF682December 15, 2024