Preentrenamiento para Aprender en Contexto
Pre-Training to Learn in Context
May 16, 2023
Autores: Yuxian Gu, Li Dong, Furu Wei, Minlie Huang
cs.AI
Resumen
El aprendizaje en contexto, donde los modelos de lenguaje preentrenados aprenden a realizar tareas a partir de ejemplos de tareas e instrucciones en sus contextos, ha captado mucha atención en la comunidad de PLN. Sin embargo, la capacidad del aprendizaje en contexto no se explota completamente porque los modelos de lenguaje no están entrenados explícitamente para aprender en contexto. Con este fin, proponemos PICL (Pre-entrenamiento para el Aprendizaje en Contexto), un marco para mejorar la capacidad de aprendizaje en contexto de los modelos de lenguaje mediante el pre-entrenamiento del modelo en una gran colección de "tareas intrínsecas" en un corpus general de texto plano utilizando el objetivo simple de modelado del lenguaje. PICL fomenta que el modelo infiera y realice tareas condicionándose en los contextos, manteniendo al mismo tiempo la generalización de tareas de los modelos preentrenados. Evaluamos el rendimiento del aprendizaje en contexto del modelo entrenado con PICL en siete conjuntos de datos de clasificación de texto ampliamente utilizados y en el benchmark Super-NaturalInstructions, que contiene más de 100 tareas de PLN formuladas como generación de texto. Nuestros experimentos muestran que PICL es más efectivo y generalizable en tareas que una variedad de líneas base, superando a modelos de lenguaje más grandes con casi 4 veces más parámetros. El código está disponible públicamente en https://github.com/thu-coai/PICL.
English
In-context learning, where pre-trained language models learn to perform tasks
from task examples and instructions in their contexts, has attracted much
attention in the NLP community. However, the ability of in-context learning is
not fully exploited because language models are not explicitly trained to learn
in context. To this end, we propose PICL (Pre-training for In-Context
Learning), a framework to enhance the language models' in-context learning
ability by pre-training the model on a large collection of "intrinsic tasks" in
the general plain-text corpus using the simple language modeling objective.
PICL encourages the model to infer and perform tasks by conditioning on the
contexts while maintaining task generalization of pre-trained models. We
evaluate the in-context learning performance of the model trained with PICL on
seven widely-used text classification datasets and the Super-NaturalInstrctions
benchmark, which contains 100+ NLP tasks formulated to text generation. Our
experiments show that PICL is more effective and task-generalizable than a
range of baselines, outperforming larger language models with nearly 4x
parameters. The code is publicly available at https://github.com/thu-coai/PICL.