Un análisis detallado del aprendizaje en contexto bajo cambios de distribución
A Closer Look at In-Context Learning under Distribution Shifts
May 26, 2023
Autores: Kartik Ahuja, David Lopez-Paz
cs.AI
Resumen
El aprendizaje en contexto, una capacidad que permite a un modelo aprender de ejemplos de entrada sobre la marcha sin necesidad de actualizar los pesos, es una característica distintiva de los modelos de lenguaje a gran escala. En este trabajo, seguimos el marco propuesto en (Garg et al., 2022) para comprender mejor la generalidad y las limitaciones del aprendizaje en contexto desde la perspectiva de la tarea simple pero fundamental de la regresión lineal. La pregunta clave que buscamos responder es: ¿Son los transformadores más hábiles que algunas arquitecturas naturales y más simples para realizar aprendizaje en contexto bajo cambios de distribución variables? Para comparar los transformadores, proponemos utilizar una arquitectura simple basada en perceptrones multicapa (MLP) basados en conjuntos. Encontramos que tanto los transformadores como los MLP basados en conjuntos exhiben aprendizaje en contexto en evaluaciones dentro de la distribución, pero los transformadores se acercan más al rendimiento de los mínimos cuadrados ordinarios (OLS). Los transformadores también muestran una mayor resistencia a cambios leves en la distribución, donde los MLP basados en conjuntos fallan. Sin embargo, bajo cambios severos en la distribución, las habilidades de aprendizaje en contexto de ambos modelos disminuyen.
English
In-context learning, a capability that enables a model to learn from input
examples on the fly without necessitating weight updates, is a defining
characteristic of large language models. In this work, we follow the setting
proposed in (Garg et al., 2022) to better understand the generality and
limitations of in-context learning from the lens of the simple yet fundamental
task of linear regression. The key question we aim to address is: Are
transformers more adept than some natural and simpler architectures at
performing in-context learning under varying distribution shifts? To compare
transformers, we propose to use a simple architecture based on set-based
Multi-Layer Perceptrons (MLPs). We find that both transformers and set-based
MLPs exhibit in-context learning under in-distribution evaluations, but
transformers more closely emulate the performance of ordinary least squares
(OLS). Transformers also display better resilience to mild distribution shifts,
where set-based MLPs falter. However, under severe distribution shifts, both
models' in-context learning abilities diminish.