L'apprentissage en contexte génère des vecteurs de tâche.
In-Context Learning Creates Task Vectors
October 24, 2023
Auteurs: Roee Hendel, Mor Geva, Amir Globerson
cs.AI
Résumé
L'apprentissage en contexte (In-context learning, ICL) dans les grands modèles de langage (Large Language Models, LLMs) est apparu comme un nouveau paradigme d'apprentissage puissant. Cependant, son mécanisme sous-jacent reste mal compris. En particulier, il est difficile de le relier au cadre "standard" de l'apprentissage automatique, où l'on utilise un ensemble d'entraînement S pour trouver une fonction f(x) la mieux adaptée dans une certaine classe d'hypothèses. Nous progressons ici sur ce problème en montrant que les fonctions apprises par l'ICL ont souvent une structure très simple : elles correspondent au transformateur LLM dont les seules entrées sont la requête x et un unique "vecteur de tâche" calculé à partir de l'ensemble d'entraînement. Ainsi, l'ICL peut être vu comme une compression de S en un seul vecteur de tâche theta(S), qui est ensuite utilisé pour moduler le transformateur afin de produire la sortie. Nous étayons cette affirmation par des expériences approfondies sur une gamme de modèles et de tâches.
English
In-context learning (ICL) in Large Language Models (LLMs) has emerged as a
powerful new learning paradigm. However, its underlying mechanism is still not
well understood. In particular, it is challenging to map it to the "standard"
machine learning framework, where one uses a training set S to find a
best-fitting function f(x) in some hypothesis class. Here we make progress on
this problem by showing that the functions learned by ICL often have a very
simple structure: they correspond to the transformer LLM whose only inputs are
the query x and a single "task vector" calculated from the training set.
Thus, ICL can be seen as compressing S into a single task vector
theta(S) and then using this task vector to modulate the
transformer to produce the output. We support the above claim via comprehensive
experiments across a range of models and tasks.