O Aprendizado em Contexto Cria Vetores de Tarefas
In-Context Learning Creates Task Vectors
October 24, 2023
Autores: Roee Hendel, Mor Geva, Amir Globerson
cs.AI
Resumo
O aprendizado em contexto (In-context Learning - ICL) em Modelos de Linguagem de Grande Escala (Large Language Models - LLMs) surgiu como um novo e poderoso paradigma de aprendizado. No entanto, seu mecanismo subjacente ainda não é bem compreendido. Em particular, é desafiador mapeá-lo para o framework "padrão" de aprendizado de máquina, onde se utiliza um conjunto de treinamento S para encontrar uma função f(x) que melhor se ajusta em uma determinada classe de hipóteses. Aqui, avançamos nesse problema ao demonstrar que as funções aprendidas pelo ICL frequentemente possuem uma estrutura muito simples: elas correspondem ao transformer LLM cujas únicas entradas são a consulta x e um único "vetor de tarefa" calculado a partir do conjunto de treinamento. Assim, o ICL pode ser visto como a compressão de S em um único vetor de tarefa theta(S), que é então utilizado para modular o transformer e produzir a saída. Nossa afirmação é respaldada por experimentos abrangentes realizados em uma variedade de modelos e tarefas.
English
In-context learning (ICL) in Large Language Models (LLMs) has emerged as a
powerful new learning paradigm. However, its underlying mechanism is still not
well understood. In particular, it is challenging to map it to the "standard"
machine learning framework, where one uses a training set S to find a
best-fitting function f(x) in some hypothesis class. Here we make progress on
this problem by showing that the functions learned by ICL often have a very
simple structure: they correspond to the transformer LLM whose only inputs are
the query x and a single "task vector" calculated from the training set.
Thus, ICL can be seen as compressing S into a single task vector
theta(S) and then using this task vector to modulate the
transformer to produce the output. We support the above claim via comprehensive
experiments across a range of models and tasks.