Een Diepere Blik op In-Context Leren onder Distributieverschuivingen
A Closer Look at In-Context Learning under Distribution Shifts
May 26, 2023
Auteurs: Kartik Ahuja, David Lopez-Paz
cs.AI
Samenvatting
In-context leren, een vaardigheid die een model in staat stelt om op basis van invoervoorbeelden te leren zonder gewichtsaanpassingen te vereisen, is een bepalend kenmerk van grote taalmodellen. In dit werk volgen we de opzet die is voorgesteld in (Garg et al., 2022) om de algemeenheid en beperkingen van in-context leren beter te begrijpen vanuit het perspectief van de eenvoudige maar fundamentele taak van lineaire regressie. De centrale vraag die we willen beantwoorden is: Zijn transformatoren beter in staat dan enkele natuurlijke en eenvoudigere architecturen om in-context leren uit te voeren onder verschillende distributieverschuivingen? Om transformatoren te vergelijken, stellen we voor om een eenvoudige architectuur te gebruiken die gebaseerd is op set-gebaseerde Multi-Layer Perceptrons (MLP's). We constateren dat zowel transformatoren als set-gebaseerde MLP's in-context leren vertonen bij evaluaties binnen de distributie, maar transformatoren benaderen de prestaties van gewone kleinste kwadraten (OLS) nauwer. Transformatoren tonen ook een betere veerkracht bij milde distributieverschuivingen, waar set-gebaseerde MLP's tekortschieten. Echter, bij ernstige distributieverschuivingen nemen de in-context leervaardigheden van beide modellen af.
English
In-context learning, a capability that enables a model to learn from input
examples on the fly without necessitating weight updates, is a defining
characteristic of large language models. In this work, we follow the setting
proposed in (Garg et al., 2022) to better understand the generality and
limitations of in-context learning from the lens of the simple yet fundamental
task of linear regression. The key question we aim to address is: Are
transformers more adept than some natural and simpler architectures at
performing in-context learning under varying distribution shifts? To compare
transformers, we propose to use a simple architecture based on set-based
Multi-Layer Perceptrons (MLPs). We find that both transformers and set-based
MLPs exhibit in-context learning under in-distribution evaluations, but
transformers more closely emulate the performance of ordinary least squares
(OLS). Transformers also display better resilience to mild distribution shifts,
where set-based MLPs falter. However, under severe distribution shifts, both
models' in-context learning abilities diminish.