Prédiction des Capacités Émergentes par Affinage
Predicting Emergent Capabilities by Finetuning
November 25, 2024
Auteurs: Charlie Snell, Eric Wallace, Dan Klein, Sergey Levine
cs.AI
Résumé
Un défi ouvert fondamental dans l'échelle moderne des LLM est le manque de compréhension autour des capacités émergentes. En particulier, il est connu que la perte de pré-entraînement des modèles de langage est hautement prévisible en fonction du calcul. Cependant, les capacités en aval sont bien moins prévisibles - parfois même en montrant des sauts émergents - ce qui rend difficile d'anticiper les capacités des futurs modèles. Dans ce travail, nous posons d'abord la tâche de prédiction de l'émergence : en ayant accès à des LLM actuels qui ont une précision aléatoire en quelques essais sur une tâche, pouvons-nous prédire si les futurs modèles (GPT-N+1) auront une précision non négligeable sur cette tâche ? Nous découvrons ensuite un aperçu simple pour ce problème : le fine-tuning des LLM sur une tâche donnée peut déplacer le point d'émergence dans l'échelle vers des modèles moins capables. Pour opérationnaliser cet aperçu, nous pouvons affiner les LLM avec des quantités variables de données et ajuster une fonction paramétrique qui prédit quand l'émergence se produira (c'est-à-dire, "les lois de l'émergence"). Nous validons cette approche en utilisant quatre bancs d'essai NLP standard où des LLM open-source à grande échelle démontrent déjà l'émergence (MMLU, GSM8K, CommonsenseQA et CoLA). En n'utilisant que des LLM à petite échelle, nous constatons que, dans certains cas, nous pouvons prédire avec précision si des modèles entraînés avec jusqu'à 4 fois plus de calcul ont émergé. Enfin, nous présentons une étude de cas de deux utilisations réalistes pour la prédiction de l'émergence.
English
A fundamental open challenge in modern LLM scaling is the lack of
understanding around emergent capabilities. In particular, language model
pretraining loss is known to be highly predictable as a function of compute.
However, downstream capabilities are far less predictable -- sometimes even
exhibiting emergent jumps -- which makes it challenging to anticipate the
capabilities of future models. In this work, we first pose the task of
emergence prediction: given access to current LLMs that have random few-shot
accuracy on a task, can we predict whether future models (GPT-N+1) will have
non-trivial accuracy on that task? We then discover a simple insight for this
problem: finetuning LLMs on a given task can shift the point in scaling at
which emergence occurs towards less capable models. To operationalize this
insight, we can finetune LLMs with varying amounts of data and fit a parametric
function that predicts when emergence will occur (i.e., "emergence laws"). We
validate this approach using four standard NLP benchmarks where large-scale
open-source LLMs already demonstrate emergence (MMLU, GSM8K, CommonsenseQA, and
CoLA). Using only small-scale LLMs, we find that, in some cases, we can
accurately predict whether models trained with up to 4x more compute have
emerged. Finally, we present a case study of two realistic uses for emergence
prediction.Summary
AI-Generated Summary