Le Fine-Tuning par Auto-Jeu Transforme les Modèles de Langage Faibles en Modèles de Langage Puissants
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models
January 2, 2024
Auteurs: Zixiang Chen, Yihe Deng, Huizhuo Yuan, Kaixuan Ji, Quanquan Gu
cs.AI
Résumé
Exploiter la puissance des données annotées par l'homme grâce au Fine-Tuning Supervisé (SFT) est essentiel pour faire progresser les Modèles de Langage à Grande Échelle (LLM). Dans cet article, nous explorons la perspective de transformer un LLM faible en un modèle robuste sans nécessiter l'acquisition de données supplémentaires annotées par l'homme. Nous proposons une nouvelle méthode de fine-tuning appelée Self-Play fIne-tuNing (SPIN), qui part d'un modèle préalablement fine-tuné de manière supervisée. Au cœur de SPIN se trouve un mécanisme de jeu autonome, où le LLM affine ses capacités en jouant contre des instances de lui-même. Plus précisément, le LLM génère ses propres données d'entraînement à partir de ses itérations précédentes, affinant sa politique en distinguant ces réponses auto-générées de celles obtenues à partir de données annotées par l'homme. Notre méthode élève progressivement le LLM d'un modèle naissant à un modèle performant, libérant ainsi tout le potentiel des données de démonstration annotées par l'homme pour le SFT. Théoriquement, nous prouvons que l'optimum global de la fonction objectif de notre méthode est atteint uniquement lorsque la politique du LLM s'aligne avec la distribution des données cibles. Empiriquement, nous évaluons notre méthode sur plusieurs ensembles de données de référence, notamment le HuggingFace Open LLM Leaderboard, MT-Bench, et des ensembles de données de Big-Bench. Nos résultats montrent que SPIN peut considérablement améliorer les performances du LLM sur une variété de benchmarks et même surpasser les modèles entraînés via l'optimisation directe des préférences (DPO) enrichie de données de préférences supplémentaires de GPT-4. Cela met en lumière la promesse du jeu autonome, permettant d'atteindre des performances de niveau humain dans les LLM sans nécessiter d'opposants experts.
English
Harnessing the power of human-annotated data through Supervised Fine-Tuning
(SFT) is pivotal for advancing Large Language Models (LLMs). In this paper, we
delve into the prospect of growing a strong LLM out of a weak one without the
need for acquiring additional human-annotated data. We propose a new
fine-tuning method called Self-Play fIne-tuNing (SPIN), which starts from a
supervised fine-tuned model. At the heart of SPIN lies a self-play mechanism,
where the LLM refines its capability by playing against instances of itself.
More specifically, the LLM generates its own training data from its previous
iterations, refining its policy by discerning these self-generated responses
from those obtained from human-annotated data. Our method progressively
elevates the LLM from a nascent model to a formidable one, unlocking the full
potential of human-annotated demonstration data for SFT. Theoretically, we
prove that the global optimum to the training objective function of our method
is achieved only when the LLM policy aligns with the target data distribution.
Empirically, we evaluate our method on several benchmark datasets including the
HuggingFace Open LLM Leaderboard, MT-Bench, and datasets from Big-Bench. Our
results show that SPIN can significantly improve the LLM's performance across a
variety of benchmarks and even outperform models trained through direct
preference optimization (DPO) supplemented with extra GPT-4 preference data.
This sheds light on the promise of self-play, enabling the achievement of
human-level performance in LLMs without the need for expert opponents.