Обучение в контексте формирует векторы задач.

Аннотация

Обучение в контексте (In-context learning, ICL) в больших языковых моделях (Large Language Models, LLMs) стало мощной новой парадигмой обучения. Однако его базовый механизм до сих пор недостаточно изучен. В частности, сложно сопоставить его с "классической" структурой машинного обучения, где используется обучающий набор данных S для поиска наилучшей функции f(x) в некотором классе гипотез. В данной работе мы продвигаемся в решении этой проблемы, показывая, что функции, изучаемые с помощью ICL, часто имеют очень простую структуру: они соответствуют трансформеру LLM, входными данными для которого являются только запрос x и единственный "вектор задачи", вычисленный на основе обучающего набора. Таким образом, ICL можно рассматривать как сжатие S в единый вектор задачи theta(S) и последующее использование этого вектора для модуляции трансформера с целью получения выходных данных. Мы подтверждаем это утверждение с помощью всесторонних экспериментов на различных моделях и задачах.

English

In-context learning (ICL) in Large Language Models (LLMs) has emerged as a powerful new learning paradigm. However, its underlying mechanism is still not well understood. In particular, it is challenging to map it to the "standard" machine learning framework, where one uses a training set S to find a best-fitting function f(x) in some hypothesis class. Here we make progress on this problem by showing that the functions learned by ICL often have a very simple structure: they correspond to the transformer LLM whose only inputs are the query x and a single "task vector" calculated from the training set. Thus, ICL can be seen as compressing S into a single task vector theta(S) and then using this task vector to modulate the transformer to produce the output. We support the above claim via comprehensive experiments across a range of models and tasks.

Обучение в контексте формирует векторы задач.

In-Context Learning Creates Task Vectors

Аннотация

Support