Comprendre l'apprentissage en contexte grâce à des données de prétraitement de soutien
Understanding In-Context Learning via Supportive Pretraining Data
June 26, 2023
Auteurs: Xiaochuang Han, Daniel Simig, Todor Mihaylov, Yulia Tsvetkov, Asli Celikyilmaz, Tianlu Wang
cs.AI
Résumé
L'apprentissage en contexte (ICL) améliore les performances des modèles de langage sur une variété de tâches de traitement du langage naturel (NLP) en présentant simplement quelques exemples au moment de l'inférence. La raison pour laquelle cette capacité émerge n'est pas bien comprise, car le modèle n'a jamais été spécifiquement entraîné sur de telles démonstrations. Contrairement aux travaux antérieurs qui explorent les mécanismes implicites derrière l'ICL, nous étudions l'ICL en examinant les données de pré-entraînement. Plus précisément, nous adaptons d'abord une approche itérative basée sur le gradient pour identifier un petit sous-ensemble de données de pré-entraînement qui soutient l'ICL. Nous observons qu'un pré-entraînement supplémentaire sur ce petit sous-ensemble améliore significativement la capacité d'ICL du modèle, jusqu'à 18 %. Nous comparons ensuite ce sous-ensemble de soutien de manière contrastive avec des sous-ensembles aléatoires de données de pré-entraînement et découvrons : (1) Les données de pré-entraînement favorables à l'ICL n'ont pas une pertinence de domaine plus élevée par rapport aux tâches en aval. (2) Les données de pré-entraînement favorables contiennent une plus grande proportion de tokens rares et de longue traîne. (3) Les données de pré-entraînement favorables sont des exemples difficiles où le gain d'information provenant du contexte à long terme est inférieur à la moyenne, indiquant que l'apprentissage pour intégrer un contexte à long terme difficile encourage l'ICL. Notre travail constitue une première étape vers la compréhension de l'ICL par l'analyse des données de pré-entraînement au niveau des instances. Nos insights ont le potentiel d'améliorer la capacité d'ICL des modèles de langage en guidant activement la construction des données de pré-entraînement à l'avenir.
English
In-context learning (ICL) improves language models' performance on a variety
of NLP tasks by simply demonstrating a handful of examples at inference time.
It is not well understood why ICL ability emerges, as the model has never been
specifically trained on such demonstrations. Unlike prior work that explores
implicit mechanisms behind ICL, we study ICL via investigating the pretraining
data. Specifically, we first adapt an iterative, gradient-based approach to
find a small subset of pretraining data that supports ICL. We observe that a
continued pretraining on this small subset significantly improves the model's
ICL ability, by up to 18%. We then compare the supportive subset constrastively
with random subsets of pretraining data and discover: (1) The supportive
pretraining data to ICL do not have a higher domain relevance to downstream
tasks. (2) The supportive pretraining data have a higher mass of rarely
occurring, long-tail tokens. (3) The supportive pretraining data are
challenging examples where the information gain from long-range context is
below average, indicating learning to incorporate difficult long-range context
encourages ICL. Our work takes a first step towards understanding ICL via
analyzing instance-level pretraining data. Our insights have a potential to
enhance the ICL ability of language models by actively guiding the construction
of pretraining data in the future.