Pré-entraînement pour l'apprentissage en contexte
Pre-Training to Learn in Context
May 16, 2023
Auteurs: Yuxian Gu, Li Dong, Furu Wei, Minlie Huang
cs.AI
Résumé
L'apprentissage en contexte, où les modèles de langage pré-entraînés apprennent à accomplir des tâches à partir d'exemples et d'instructions dans leur contexte, a suscité un vif intérêt dans la communauté du traitement automatique du langage naturel (TALN). Cependant, la capacité d'apprentissage en contexte n'est pas pleinement exploitée car les modèles de langage ne sont pas explicitement entraînés à apprendre dans ce cadre. Pour pallier cela, nous proposons PICL (Pre-training for In-Context Learning), un cadre visant à améliorer la capacité d'apprentissage en contexte des modèles de langage en les pré-entraînant sur un vaste ensemble de "tâches intrinsèques" issues d'un corpus de texte brut général, en utilisant l'objectif simple de modélisation du langage. PICL encourage le modèle à déduire et à exécuter des tâches en se basant sur les contextes, tout en préservant la généralisation des tâches des modèles pré-entraînés. Nous évaluons les performances d'apprentissage en contexte du modèle entraîné avec PICL sur sept ensembles de données de classification de texte couramment utilisés, ainsi que sur le benchmark Super-NaturalInstructions, qui contient plus de 100 tâches de TALN formulées pour la génération de texte. Nos expériences montrent que PICL est plus efficace et généralisable aux tâches qu'une gamme de modèles de référence, surpassant des modèles de langage plus volumineux avec près de 4 fois plus de paramètres. Le code est disponible publiquement à l'adresse suivante : https://github.com/thu-coai/PICL.
English
In-context learning, where pre-trained language models learn to perform tasks
from task examples and instructions in their contexts, has attracted much
attention in the NLP community. However, the ability of in-context learning is
not fully exploited because language models are not explicitly trained to learn
in context. To this end, we propose PICL (Pre-training for In-Context
Learning), a framework to enhance the language models' in-context learning
ability by pre-training the model on a large collection of "intrinsic tasks" in
the general plain-text corpus using the simple language modeling objective.
PICL encourages the model to infer and perform tasks by conditioning on the
contexts while maintaining task generalization of pre-trained models. We
evaluate the in-context learning performance of the model trained with PICL on
seven widely-used text classification datasets and the Super-NaturalInstrctions
benchmark, which contains 100+ NLP tasks formulated to text generation. Our
experiments show that PICL is more effective and task-generalizable than a
range of baselines, outperforming larger language models with nearly 4x
parameters. The code is publicly available at https://github.com/thu-coai/PICL.