Een Diepere Blik op In-Context Leren onder Distributieverschuivingen

Samenvatting

In-context leren, een vaardigheid die een model in staat stelt om op basis van invoervoorbeelden te leren zonder gewichtsaanpassingen te vereisen, is een bepalend kenmerk van grote taalmodellen. In dit werk volgen we de opzet die is voorgesteld in (Garg et al., 2022) om de algemeenheid en beperkingen van in-context leren beter te begrijpen vanuit het perspectief van de eenvoudige maar fundamentele taak van lineaire regressie. De centrale vraag die we willen beantwoorden is: Zijn transformatoren beter in staat dan enkele natuurlijke en eenvoudigere architecturen om in-context leren uit te voeren onder verschillende distributieverschuivingen? Om transformatoren te vergelijken, stellen we voor om een eenvoudige architectuur te gebruiken die gebaseerd is op set-gebaseerde Multi-Layer Perceptrons (MLP's). We constateren dat zowel transformatoren als set-gebaseerde MLP's in-context leren vertonen bij evaluaties binnen de distributie, maar transformatoren benaderen de prestaties van gewone kleinste kwadraten (OLS) nauwer. Transformatoren tonen ook een betere veerkracht bij milde distributieverschuivingen, waar set-gebaseerde MLP's tekortschieten. Echter, bij ernstige distributieverschuivingen nemen de in-context leervaardigheden van beide modellen af.

English

In-context learning, a capability that enables a model to learn from input examples on the fly without necessitating weight updates, is a defining characteristic of large language models. In this work, we follow the setting proposed in (Garg et al., 2022) to better understand the generality and limitations of in-context learning from the lens of the simple yet fundamental task of linear regression. The key question we aim to address is: Are transformers more adept than some natural and simpler architectures at performing in-context learning under varying distribution shifts? To compare transformers, we propose to use a simple architecture based on set-based Multi-Layer Perceptrons (MLPs). We find that both transformers and set-based MLPs exhibit in-context learning under in-distribution evaluations, but transformers more closely emulate the performance of ordinary least squares (OLS). Transformers also display better resilience to mild distribution shifts, where set-based MLPs falter. However, under severe distribution shifts, both models' in-context learning abilities diminish.

Een Diepere Blik op In-Context Leren onder Distributieverschuivingen

A Closer Look at In-Context Learning under Distribution Shifts

Samenvatting

Support