Un'analisi più approfondita dell'apprendimento in contesto in presenza di cambiamenti nella distribuzione dei dati
A Closer Look at In-Context Learning under Distribution Shifts
May 26, 2023
Autori: Kartik Ahuja, David Lopez-Paz
cs.AI
Abstract
L'apprendimento in contesto, una capacità che consente a un modello di apprendere da esempi di input al volo senza necessitare di aggiornamenti dei pesi, è una caratteristica distintiva dei grandi modelli linguistici. In questo lavoro, seguiamo l'impostazione proposta in (Garg et al., 2022) per comprendere meglio la generalità e i limiti dell'apprendimento in contesto attraverso la lente del compito semplice ma fondamentale della regressione lineare. La domanda chiave che miriamo a affrontare è: i transformer sono più abili di alcune architetture naturali e più semplici nel realizzare l'apprendimento in contesto in presenza di variazioni nella distribuzione dei dati? Per confrontare i transformer, proponiamo di utilizzare un'architettura semplice basata su Multi-Layer Perceptron (MLP) basati su insiemi. Scopriamo che sia i transformer che gli MLP basati su insiemi mostrano apprendimento in contesto nelle valutazioni in-distribuzione, ma i transformer si avvicinano maggiormente alle prestazioni dei minimi quadrati ordinari (OLS). I transformer mostrano anche una migliore resilienza a lievi variazioni nella distribuzione, dove invece gli MLP basati su insiemi falliscono. Tuttavia, in presenza di gravi variazioni nella distribuzione, le capacità di apprendimento in contesto di entrambi i modelli diminuiscono.
English
In-context learning, a capability that enables a model to learn from input
examples on the fly without necessitating weight updates, is a defining
characteristic of large language models. In this work, we follow the setting
proposed in (Garg et al., 2022) to better understand the generality and
limitations of in-context learning from the lens of the simple yet fundamental
task of linear regression. The key question we aim to address is: Are
transformers more adept than some natural and simpler architectures at
performing in-context learning under varying distribution shifts? To compare
transformers, we propose to use a simple architecture based on set-based
Multi-Layer Perceptrons (MLPs). We find that both transformers and set-based
MLPs exhibit in-context learning under in-distribution evaluations, but
transformers more closely emulate the performance of ordinary least squares
(OLS). Transformers also display better resilience to mild distribution shifts,
where set-based MLPs falter. However, under severe distribution shifts, both
models' in-context learning abilities diminish.