Vers un apprentissage optimal des modèles de langage
Towards Optimal Learning of Language Models
February 27, 2024
Auteurs: Yuxian Gu, Li Dong, Yaru Hao, Qingxiu Dong, Minlie Huang, Furu Wei
cs.AI
Résumé
Ce travail étudie les principes généraux pour améliorer l'apprentissage des modèles de langage (LMs), dans le but de réduire le nombre d'étapes d'entraînement nécessaires pour atteindre des performances supérieures. Plus précisément, nous présentons une théorie pour l'apprentissage optimal des LMs. Nous proposons d'abord un objectif qui optimise l'apprentissage des LMs en maximisant le taux de compression des données dans une perspective d'"entraînement-des-LMs-comme-compression-sans-perte". Ensuite, nous dérivons un théorème, nommé Loi d'Apprentissage, pour révéler les propriétés de la dynamique dans le processus d'apprentissage optimal sous notre objectif. Ce théorème est ensuite validé par des expériences sur une tâche de classification linéaire et une tâche de modélisation de langage en conditions réelles. Enfin, nous vérifions empiriquement que l'apprentissage optimal des LMs découle essentiellement de l'amélioration des coefficients dans la loi d'échelle des LMs, indiquant un grand potentiel et une importance significative pour la conception de méthodes pratiques d'accélération de l'apprentissage. Notre code est disponible à l'adresse suivante : https://aka.ms/LearningLaw.
English
This work studies the general principles of improving the learning of
language models (LMs), which aims at reducing the necessary training steps for
achieving superior performance. Specifically, we present a theory for the
optimal learning of LMs. We first propose an objective that optimizes LM
learning by maximizing the data compression ratio in an
"LM-training-as-lossless-compression" view. Then, we derive a theorem, named
Learning Law, to reveal the properties of the dynamics in the optimal learning
process under our objective. The theorem is then validated by experiments on a
linear classification and a real-world language modeling task. Finally, we
empirically verify that the optimal learning of LMs essentially stems from the
improvement of the coefficients in the scaling law of LMs, indicating great
promise and significance for designing practical learning acceleration methods.
Our code can be found at https://aka.ms/LearningLaw.