Обучение в контексте формирует векторы задач.
In-Context Learning Creates Task Vectors
October 24, 2023
Авторы: Roee Hendel, Mor Geva, Amir Globerson
cs.AI
Аннотация
Обучение в контексте (In-context learning, ICL) в больших языковых моделях (Large Language Models, LLMs) стало мощной новой парадигмой обучения. Однако его базовый механизм до сих пор недостаточно изучен. В частности, сложно сопоставить его с "классической" структурой машинного обучения, где используется обучающий набор данных S для поиска наилучшей функции f(x) в некотором классе гипотез. В данной работе мы продвигаемся в решении этой проблемы, показывая, что функции, изучаемые с помощью ICL, часто имеют очень простую структуру: они соответствуют трансформеру LLM, входными данными для которого являются только запрос x и единственный "вектор задачи", вычисленный на основе обучающего набора. Таким образом, ICL можно рассматривать как сжатие S в единый вектор задачи theta(S) и последующее использование этого вектора для модуляции трансформера с целью получения выходных данных. Мы подтверждаем это утверждение с помощью всесторонних экспериментов на различных моделях и задачах.
English
In-context learning (ICL) in Large Language Models (LLMs) has emerged as a
powerful new learning paradigm. However, its underlying mechanism is still not
well understood. In particular, it is challenging to map it to the "standard"
machine learning framework, where one uses a training set S to find a
best-fitting function f(x) in some hypothesis class. Here we make progress on
this problem by showing that the functions learned by ICL often have a very
simple structure: they correspond to the transformer LLM whose only inputs are
the query x and a single "task vector" calculated from the training set.
Thus, ICL can be seen as compressing S into a single task vector
theta(S) and then using this task vector to modulate the
transformer to produce the output. We support the above claim via comprehensive
experiments across a range of models and tasks.