Ein genauerer Blick auf In-Context-Lernen bei Verteilungsverschiebungen
A Closer Look at In-Context Learning under Distribution Shifts
May 26, 2023
Autoren: Kartik Ahuja, David Lopez-Paz
cs.AI
Zusammenfassung
In-Context-Learning, eine Fähigkeit, die es einem Modell ermöglicht, aus Eingabebeispielen „on-the-fly“ zu lernen, ohne Gewichtsaktualisierungen zu erfordern, ist ein wesentliches Merkmal großer Sprachmodelle. In dieser Arbeit folgen wir dem in (Garg et al., 2022) vorgeschlagenen Ansatz, um die Allgemeingültigkeit und Grenzen des In-Context-Learnings aus der Perspektive der einfachen, aber grundlegenden Aufgabe der linearen Regression besser zu verstehen. Die zentrale Frage, die wir beantworten möchten, lautet: Sind Transformer besser geeignet als einige natürliche und einfachere Architekturen, um In-Context-Learning unter variierenden Verteilungsverschiebungen durchzuführen? Um Transformer zu vergleichen, schlagen wir vor, eine einfache Architektur basierend auf set-basierten Multi-Layer Perceptrons (MLPs) zu verwenden. Wir stellen fest, dass sowohl Transformer als auch set-basierte MLPs In-Context-Learning bei In-Distribution-Evaluierungen zeigen, wobei Transformer die Leistung der Methode der kleinsten Quadrate (OLS) genauer nachahmen. Transformer zeigen auch eine bessere Widerstandsfähigkeit gegenüber milden Verteilungsverschiebungen, bei denen set-basierte MLPs scheitern. Bei starken Verteilungsverschiebungen nimmt jedoch die Fähigkeit zum In-Context-Learning bei beiden Modellen ab.
English
In-context learning, a capability that enables a model to learn from input
examples on the fly without necessitating weight updates, is a defining
characteristic of large language models. In this work, we follow the setting
proposed in (Garg et al., 2022) to better understand the generality and
limitations of in-context learning from the lens of the simple yet fundamental
task of linear regression. The key question we aim to address is: Are
transformers more adept than some natural and simpler architectures at
performing in-context learning under varying distribution shifts? To compare
transformers, we propose to use a simple architecture based on set-based
Multi-Layer Perceptrons (MLPs). We find that both transformers and set-based
MLPs exhibit in-context learning under in-distribution evaluations, but
transformers more closely emulate the performance of ordinary least squares
(OLS). Transformers also display better resilience to mild distribution shifts,
where set-based MLPs falter. However, under severe distribution shifts, both
models' in-context learning abilities diminish.