In-Context-Learning erzeugt Aufgabenvektoren.

papers.abstract

In-Context-Learning (ICL) in großen Sprachmodellen (LLMs) hat sich als ein leistungsstarkes neues Lernparadigma etabliert. Allerdings ist der zugrunde liegende Mechanismus noch nicht gut verstanden. Insbesondere ist es schwierig, es in den „Standard“-Rahmen des maschinellen Lernens einzubetten, bei dem man einen Trainingsdatensatz S verwendet, um eine bestmögliche Funktion f(x) in einer bestimmten Hypothesenklasse zu finden. Hier machen wir Fortschritte bei diesem Problem, indem wir zeigen, dass die durch ICL gelernten Funktionen oft eine sehr einfache Struktur aufweisen: Sie entsprechen dem Transformer-LLM, dessen einzige Eingaben die Abfrage x und ein einzelner „Task-Vektor“ sind, der aus dem Trainingsdatensatz berechnet wird. Somit kann ICL als eine Komprimierung von S in einen einzigen Task-Vektor theta(S) betrachtet werden, der dann verwendet wird, um den Transformer zu modulieren und die Ausgabe zu erzeugen. Wir untermauern diese Behauptung durch umfassende Experimente über eine Reihe von Modellen und Aufgaben hinweg.

English

In-context learning (ICL) in Large Language Models (LLMs) has emerged as a powerful new learning paradigm. However, its underlying mechanism is still not well understood. In particular, it is challenging to map it to the "standard" machine learning framework, where one uses a training set S to find a best-fitting function f(x) in some hypothesis class. Here we make progress on this problem by showing that the functions learned by ICL often have a very simple structure: they correspond to the transformer LLM whose only inputs are the query x and a single "task vector" calculated from the training set. Thus, ICL can be seen as compressing S into a single task vector theta(S) and then using this task vector to modulate the transformer to produce the output. We support the above claim via comprehensive experiments across a range of models and tasks.

In-Context-Learning erzeugt Aufgabenvektoren.

In-Context Learning Creates Task Vectors

papers.abstract

Support