In-Context Learning Creëert Taakvectoren
In-Context Learning Creates Task Vectors
October 24, 2023
Auteurs: Roee Hendel, Mor Geva, Amir Globerson
cs.AI
Samenvatting
In-context learning (ICL) in Large Language Models (LLMs) is naar voren gekomen als een krachtig nieuw leerparadigma. Het onderliggende mechanisme ervan is echter nog niet goed begrepen. In het bijzonder is het uitdagend om het te koppelen aan het "standaard" machine learning-framework, waarbij men een trainingset S gebruikt om een best passende functie f(x) te vinden binnen een bepaalde hypotheseklasse. Hier boeken we vooruitgang op dit probleem door aan te tonen dat de functies die door ICL worden geleerd vaak een zeer eenvoudige structuur hebben: ze corresponderen met de transformer-LLM waarvan de enige invoer de query x en een enkele "taakvector" is, berekend uit de trainingset. ICL kan dus worden gezien als het comprimeren van S in een enkele taakvector theta(S) en vervolgens het gebruik van deze taakvector om de transformer te moduleren voor het produceren van de uitvoer. We ondersteunen de bovenstaande bewering via uitgebreide experimenten over een reeks modellen en taken.
English
In-context learning (ICL) in Large Language Models (LLMs) has emerged as a
powerful new learning paradigm. However, its underlying mechanism is still not
well understood. In particular, it is challenging to map it to the "standard"
machine learning framework, where one uses a training set S to find a
best-fitting function f(x) in some hypothesis class. Here we make progress on
this problem by showing that the functions learned by ICL often have a very
simple structure: they correspond to the transformer LLM whose only inputs are
the query x and a single "task vector" calculated from the training set.
Thus, ICL can be seen as compressing S into a single task vector
theta(S) and then using this task vector to modulate the
transformer to produce the output. We support the above claim via comprehensive
experiments across a range of models and tasks.