Более детальное рассмотрение обучения в контексте при сдвигах распределения
A Closer Look at In-Context Learning under Distribution Shifts
May 26, 2023
Авторы: Kartik Ahuja, David Lopez-Paz
cs.AI
Аннотация
Обучение в контексте, способность модели обучаться на входных примерах на лету без необходимости обновления весов, является определяющей характеристикой крупных языковых моделей. В данной работе мы следуем подходу, предложенному в (Garg et al., 2022), чтобы лучше понять общность и ограничения обучения в контексте через призму простой, но фундаментальной задачи линейной регрессии. Ключевой вопрос, на который мы стремимся ответить, заключается в следующем: являются ли трансформеры более эффективными, чем некоторые естественные и более простые архитектуры, в выполнении обучения в контексте при различных сдвигах распределения? Для сравнения трансформеров мы предлагаем использовать простую архитектуру, основанную на множественных многослойных перцептронах (MLP). Мы обнаруживаем, что как трансформеры, так и множественные MLP демонстрируют обучение в контексте при оценках в рамках распределения, но трансформеры более точно имитируют производительность метода наименьших квадратов (OLS). Трансформеры также проявляют большую устойчивость к умеренным сдвигам распределения, в то время как множественные MLP дают сбои. Однако при сильных сдвигах распределения способности к обучению в контексте у обеих моделей снижаются.
English
In-context learning, a capability that enables a model to learn from input
examples on the fly without necessitating weight updates, is a defining
characteristic of large language models. In this work, we follow the setting
proposed in (Garg et al., 2022) to better understand the generality and
limitations of in-context learning from the lens of the simple yet fundamental
task of linear regression. The key question we aim to address is: Are
transformers more adept than some natural and simpler architectures at
performing in-context learning under varying distribution shifts? To compare
transformers, we propose to use a simple architecture based on set-based
Multi-Layer Perceptrons (MLPs). We find that both transformers and set-based
MLPs exhibit in-context learning under in-distribution evaluations, but
transformers more closely emulate the performance of ordinary least squares
(OLS). Transformers also display better resilience to mild distribution shifts,
where set-based MLPs falter. However, under severe distribution shifts, both
models' in-context learning abilities diminish.