Compreendendo o Aprendizado em Contexto por meio de Dados de Pré-treinamento de Suporte
Understanding In-Context Learning via Supportive Pretraining Data
June 26, 2023
Autores: Xiaochuang Han, Daniel Simig, Todor Mihaylov, Yulia Tsvetkov, Asli Celikyilmaz, Tianlu Wang
cs.AI
Resumo
O aprendizado em contexto (ICL, do inglês In-context Learning) melhora o desempenho de modelos de linguagem em uma variedade de tarefas de PLN simplesmente demonstrando alguns exemplos no momento da inferência. Ainda não é bem compreendido por que a capacidade de ICL emerge, já que o modelo nunca foi especificamente treinado com tais demonstrações. Diferente de trabalhos anteriores que exploram mecanismos implícitos por trás do ICL, nós estudamos o ICL investigando os dados de pré-treinamento. Especificamente, primeiro adaptamos uma abordagem iterativa baseada em gradiente para encontrar um pequeno subconjunto de dados de pré-treinamento que suporta o ICL. Observamos que um pré-treinamento contínuo nesse pequeno subconjunto melhora significativamente a capacidade de ICL do modelo, em até 18%. Em seguida, comparamos o subconjunto de suporte contrastivamente com subconjuntos aleatórios de dados de pré-treinamento e descobrimos: (1) Os dados de pré-treinamento que suportam o ICL não têm uma relevância de domínio maior para as tarefas subsequentes. (2) Os dados de pré-treinamento de suporte têm uma maior concentração de tokens raros, de cauda longa. (3) Os dados de pré-treinamento de suporte são exemplos desafiadores onde o ganho de informação a partir do contexto de longo alcance está abaixo da média, indicando que aprender a incorporar contextos de longo alcance difíceis incentiva o ICL. Nosso trabalho dá um primeiro passo para entender o ICL por meio da análise de dados de pré-treinamento em nível de instância. Nossas descobertas têm o potencial de aprimorar a capacidade de ICL de modelos de linguagem ao guiar ativamente a construção de dados de pré-treinamento no futuro.
English
In-context learning (ICL) improves language models' performance on a variety
of NLP tasks by simply demonstrating a handful of examples at inference time.
It is not well understood why ICL ability emerges, as the model has never been
specifically trained on such demonstrations. Unlike prior work that explores
implicit mechanisms behind ICL, we study ICL via investigating the pretraining
data. Specifically, we first adapt an iterative, gradient-based approach to
find a small subset of pretraining data that supports ICL. We observe that a
continued pretraining on this small subset significantly improves the model's
ICL ability, by up to 18%. We then compare the supportive subset constrastively
with random subsets of pretraining data and discover: (1) The supportive
pretraining data to ICL do not have a higher domain relevance to downstream
tasks. (2) The supportive pretraining data have a higher mass of rarely
occurring, long-tail tokens. (3) The supportive pretraining data are
challenging examples where the information gain from long-range context is
below average, indicating learning to incorporate difficult long-range context
encourages ICL. Our work takes a first step towards understanding ICL via
analyzing instance-level pretraining data. Our insights have a potential to
enhance the ICL ability of language models by actively guiding the construction
of pretraining data in the future.