Compreendendo o Aprendizado em Contexto por meio de Dados de Pré-treinamento de Suporte

Resumo

O aprendizado em contexto (ICL, do inglês In-context Learning) melhora o desempenho de modelos de linguagem em uma variedade de tarefas de PLN simplesmente demonstrando alguns exemplos no momento da inferência. Ainda não é bem compreendido por que a capacidade de ICL emerge, já que o modelo nunca foi especificamente treinado com tais demonstrações. Diferente de trabalhos anteriores que exploram mecanismos implícitos por trás do ICL, nós estudamos o ICL investigando os dados de pré-treinamento. Especificamente, primeiro adaptamos uma abordagem iterativa baseada em gradiente para encontrar um pequeno subconjunto de dados de pré-treinamento que suporta o ICL. Observamos que um pré-treinamento contínuo nesse pequeno subconjunto melhora significativamente a capacidade de ICL do modelo, em até 18%. Em seguida, comparamos o subconjunto de suporte contrastivamente com subconjuntos aleatórios de dados de pré-treinamento e descobrimos: (1) Os dados de pré-treinamento que suportam o ICL não têm uma relevância de domínio maior para as tarefas subsequentes. (2) Os dados de pré-treinamento de suporte têm uma maior concentração de tokens raros, de cauda longa. (3) Os dados de pré-treinamento de suporte são exemplos desafiadores onde o ganho de informação a partir do contexto de longo alcance está abaixo da média, indicando que aprender a incorporar contextos de longo alcance difíceis incentiva o ICL. Nosso trabalho dá um primeiro passo para entender o ICL por meio da análise de dados de pré-treinamento em nível de instância. Nossas descobertas têm o potencial de aprimorar a capacidade de ICL de modelos de linguagem ao guiar ativamente a construção de dados de pré-treinamento no futuro.

English

In-context learning (ICL) improves language models' performance on a variety of NLP tasks by simply demonstrating a handful of examples at inference time. It is not well understood why ICL ability emerges, as the model has never been specifically trained on such demonstrations. Unlike prior work that explores implicit mechanisms behind ICL, we study ICL via investigating the pretraining data. Specifically, we first adapt an iterative, gradient-based approach to find a small subset of pretraining data that supports ICL. We observe that a continued pretraining on this small subset significantly improves the model's ICL ability, by up to 18%. We then compare the supportive subset constrastively with random subsets of pretraining data and discover: (1) The supportive pretraining data to ICL do not have a higher domain relevance to downstream tasks. (2) The supportive pretraining data have a higher mass of rarely occurring, long-tail tokens. (3) The supportive pretraining data are challenging examples where the information gain from long-range context is below average, indicating learning to incorporate difficult long-range context encourages ICL. Our work takes a first step towards understanding ICL via analyzing instance-level pretraining data. Our insights have a potential to enhance the ICL ability of language models by actively guiding the construction of pretraining data in the future.

Compreendendo o Aprendizado em Contexto por meio de Dados de Pré-treinamento de Suporte

Understanding In-Context Learning via Supportive Pretraining Data

Resumo

Support