El Aprendizaje en Contexto Genera Vectores de Tareas
In-Context Learning Creates Task Vectors
October 24, 2023
Autores: Roee Hendel, Mor Geva, Amir Globerson
cs.AI
Resumen
El aprendizaje en contexto (ICL, por sus siglas en inglés) en los Modelos de Lenguaje de Gran Escala (LLMs) ha surgido como un nuevo y poderoso paradigma de aprendizaje. Sin embargo, su mecanismo subyacente aún no se comprende bien. En particular, es un desafío mapearlo al marco de trabajo "estándar" del aprendizaje automático, donde se utiliza un conjunto de entrenamiento S para encontrar una función f(x) que mejor se ajuste dentro de una clase de hipótesis. Aquí avanzamos en este problema al demostrar que las funciones aprendidas por ICL a menudo tienen una estructura muy simple: corresponden al transformador LLM cuyas únicas entradas son la consulta x y un único "vector de tarea" calculado a partir del conjunto de entrenamiento. Por lo tanto, el ICL puede verse como la compresión de S en un solo vector de tarea theta(S) y luego usar este vector para modular el transformador y producir la salida. Respaldamos esta afirmación mediante experimentos exhaustivos en una variedad de modelos y tareas.
English
In-context learning (ICL) in Large Language Models (LLMs) has emerged as a
powerful new learning paradigm. However, its underlying mechanism is still not
well understood. In particular, it is challenging to map it to the "standard"
machine learning framework, where one uses a training set S to find a
best-fitting function f(x) in some hypothesis class. Here we make progress on
this problem by showing that the functions learned by ICL often have a very
simple structure: they correspond to the transformer LLM whose only inputs are
the query x and a single "task vector" calculated from the training set.
Thus, ICL can be seen as compressing S into a single task vector
theta(S) and then using this task vector to modulate the
transformer to produce the output. We support the above claim via comprehensive
experiments across a range of models and tasks.