In-Context-Learning erzeugt Aufgabenvektoren.
In-Context Learning Creates Task Vectors
October 24, 2023
Autoren: Roee Hendel, Mor Geva, Amir Globerson
cs.AI
Zusammenfassung
In-Context-Learning (ICL) in großen Sprachmodellen (LLMs) hat sich als ein leistungsstarkes neues Lernparadigma etabliert. Allerdings ist der zugrunde liegende Mechanismus noch nicht gut verstanden. Insbesondere ist es schwierig, es in den „Standard“-Rahmen des maschinellen Lernens einzubetten, bei dem man einen Trainingsdatensatz S verwendet, um eine bestmögliche Funktion f(x) in einer bestimmten Hypothesenklasse zu finden. Hier machen wir Fortschritte bei diesem Problem, indem wir zeigen, dass die durch ICL gelernten Funktionen oft eine sehr einfache Struktur aufweisen: Sie entsprechen dem Transformer-LLM, dessen einzige Eingaben die Abfrage x und ein einzelner „Task-Vektor“ sind, der aus dem Trainingsdatensatz berechnet wird. Somit kann ICL als eine Komprimierung von S in einen einzigen Task-Vektor theta(S) betrachtet werden, der dann verwendet wird, um den Transformer zu modulieren und die Ausgabe zu erzeugen. Wir untermauern diese Behauptung durch umfassende Experimente über eine Reihe von Modellen und Aufgaben hinweg.
English
In-context learning (ICL) in Large Language Models (LLMs) has emerged as a
powerful new learning paradigm. However, its underlying mechanism is still not
well understood. In particular, it is challenging to map it to the "standard"
machine learning framework, where one uses a training set S to find a
best-fitting function f(x) in some hypothesis class. Here we make progress on
this problem by showing that the functions learned by ICL often have a very
simple structure: they correspond to the transformer LLM whose only inputs are
the query x and a single "task vector" calculated from the training set.
Thus, ICL can be seen as compressing S into a single task vector
theta(S) and then using this task vector to modulate the
transformer to produce the output. We support the above claim via comprehensive
experiments across a range of models and tasks.