Un examen approfondi de l'apprentissage en contexte sous des changements de distribution
A Closer Look at In-Context Learning under Distribution Shifts
May 26, 2023
Auteurs: Kartik Ahuja, David Lopez-Paz
cs.AI
Résumé
L'apprentissage en contexte, une capacité qui permet à un modèle d'apprendre à partir d'exemples d'entrée à la volée sans nécessiter de mise à jour des poids, est une caractéristique déterminante des grands modèles de langage. Dans ce travail, nous suivons le cadre proposé par (Garg et al., 2022) pour mieux comprendre la généralité et les limites de l'apprentissage en contexte à travers la tâche simple mais fondamentale de la régression linéaire. La question clé que nous cherchons à aborder est la suivante : les transformateurs sont-ils plus aptes que certaines architectures naturelles et plus simples à réaliser un apprentissage en contexte face à des variations de distribution ? Pour comparer les transformateurs, nous proposons d'utiliser une architecture simple basée sur des perceptrons multicouches (MLP) basés sur des ensembles. Nous constatons que les transformateurs et les MLP basés sur des ensembles montrent tous deux des capacités d'apprentissage en contexte lors d'évaluations en distribution, mais les transformateurs se rapprochent davantage des performances des moindres carrés ordinaires (OLS). Les transformateurs démontrent également une meilleure résilience face à des variations modérées de distribution, là où les MLP basés sur des ensembles échouent. Cependant, face à des variations sévères de distribution, les capacités d'apprentissage en contexte des deux modèles diminuent.
English
In-context learning, a capability that enables a model to learn from input
examples on the fly without necessitating weight updates, is a defining
characteristic of large language models. In this work, we follow the setting
proposed in (Garg et al., 2022) to better understand the generality and
limitations of in-context learning from the lens of the simple yet fundamental
task of linear regression. The key question we aim to address is: Are
transformers more adept than some natural and simpler architectures at
performing in-context learning under varying distribution shifts? To compare
transformers, we propose to use a simple architecture based on set-based
Multi-Layer Perceptrons (MLPs). We find that both transformers and set-based
MLPs exhibit in-context learning under in-distribution evaluations, but
transformers more closely emulate the performance of ordinary least squares
(OLS). Transformers also display better resilience to mild distribution shifts,
where set-based MLPs falter. However, under severe distribution shifts, both
models' in-context learning abilities diminish.