ChatPaper.aiChatPaper

Понимание обучения в контексте через вспомогательные предобучающие данные

Understanding In-Context Learning via Supportive Pretraining Data

June 26, 2023
Авторы: Xiaochuang Han, Daniel Simig, Todor Mihaylov, Yulia Tsvetkov, Asli Celikyilmaz, Tianlu Wang
cs.AI

Аннотация

Обучение в контексте (In-context learning, ICL) повышает производительность языковых моделей на различных задачах обработки естественного языка (NLP) за счет простого демонстрирования нескольких примеров во время вывода. До сих пор не до конца понятно, почему возникает способность к ICL, поскольку модель никогда не обучалась специально на таких демонстрациях. В отличие от предыдущих работ, исследующих скрытые механизмы, лежащие в основе ICL, мы изучаем ICL через анализ данных предварительного обучения. В частности, мы сначала адаптируем итеративный градиентный подход для поиска небольшого подмножества данных предварительного обучения, которое поддерживает ICL. Мы наблюдаем, что продолжение предварительного обучения на этом небольшом подмножестве значительно улучшает способность модели к ICL — до 18%. Затем мы сравниваем поддерживающее подмножество с произвольными подмножествами данных предварительного обучения и обнаруживаем: (1) Поддерживающие данные предварительного обучения для ICL не имеют более высокой релевантности домену для последующих задач. (2) Поддерживающие данные предварительного обучения содержат больше редких, длинных токенов из "длинного хвоста". (3) Поддерживающие данные предварительного обучения представляют собой сложные примеры, где информационная выгода от длинного контекста ниже среднего, что указывает на то, что обучение учитывать сложный длинный контекст способствует ICL. Наша работа делает первый шаг к пониманию ICL через анализ данных предварительного обучения на уровне отдельных примеров. Наши выводы имеют потенциал для улучшения способности языковых моделей к ICL за счет активного руководства построением данных предварительного обучения в будущем.
English
In-context learning (ICL) improves language models' performance on a variety of NLP tasks by simply demonstrating a handful of examples at inference time. It is not well understood why ICL ability emerges, as the model has never been specifically trained on such demonstrations. Unlike prior work that explores implicit mechanisms behind ICL, we study ICL via investigating the pretraining data. Specifically, we first adapt an iterative, gradient-based approach to find a small subset of pretraining data that supports ICL. We observe that a continued pretraining on this small subset significantly improves the model's ICL ability, by up to 18%. We then compare the supportive subset constrastively with random subsets of pretraining data and discover: (1) The supportive pretraining data to ICL do not have a higher domain relevance to downstream tasks. (2) The supportive pretraining data have a higher mass of rarely occurring, long-tail tokens. (3) The supportive pretraining data are challenging examples where the information gain from long-range context is below average, indicating learning to incorporate difficult long-range context encourages ICL. Our work takes a first step towards understanding ICL via analyzing instance-level pretraining data. Our insights have a potential to enhance the ICL ability of language models by actively guiding the construction of pretraining data in the future.
PDF61December 15, 2024