Pré-treinamento para Aprender em Contexto
Pre-Training to Learn in Context
May 16, 2023
Autores: Yuxian Gu, Li Dong, Furu Wei, Minlie Huang
cs.AI
Resumo
O aprendizado em contexto, onde modelos de linguagem pré-treinados aprendem a realizar tarefas a partir de exemplos de tarefas e instruções em seus contextos, tem atraído muita atenção na comunidade de PLN. No entanto, a capacidade do aprendizado em contexto não é totalmente explorada porque os modelos de linguagem não são explicitamente treinados para aprender em contexto. Para isso, propomos o PICL (Pre-training for In-Context Learning), uma estrutura para aprimorar a capacidade de aprendizado em contexto dos modelos de linguagem, pré-treinando o modelo em uma grande coleção de "tarefas intrínsecas" no corpus geral de texto simples, utilizando o objetivo simples de modelagem de linguagem. O PICL incentiva o modelo a inferir e realizar tarefas condicionando-se aos contextos, mantendo a generalização de tarefas dos modelos pré-treinados. Avaliamos o desempenho do aprendizado em contexto do modelo treinado com PICL em sete conjuntos de dados amplamente utilizados para classificação de texto e no benchmark Super-NaturalInstructions, que contém mais de 100 tarefas de NLP formuladas para geração de texto. Nossos experimentos mostram que o PICL é mais eficaz e generalizável para tarefas do que uma série de baselines, superando modelos de linguagem maiores com quase 4x mais parâmetros. O código está disponível publicamente em https://github.com/thu-coai/PICL.
English
In-context learning, where pre-trained language models learn to perform tasks
from task examples and instructions in their contexts, has attracted much
attention in the NLP community. However, the ability of in-context learning is
not fully exploited because language models are not explicitly trained to learn
in context. To this end, we propose PICL (Pre-training for In-Context
Learning), a framework to enhance the language models' in-context learning
ability by pre-training the model on a large collection of "intrinsic tasks" in
the general plain-text corpus using the simple language modeling objective.
PICL encourages the model to infer and perform tasks by conditioning on the
contexts while maintaining task generalization of pre-trained models. We
evaluate the in-context learning performance of the model trained with PICL on
seven widely-used text classification datasets and the Super-NaturalInstrctions
benchmark, which contains 100+ NLP tasks formulated to text generation. Our
experiments show that PICL is more effective and task-generalizable than a
range of baselines, outperforming larger language models with nearly 4x
parameters. The code is publicly available at https://github.com/thu-coai/PICL.