In-context leren begrijpen via ondersteunende voorafgaande trainingsdata

Samenvatting

In-context learning (ICL) verbetert de prestaties van taalmodellen op een verscheidenheid aan NLP-taken door simpelweg een handvol voorbeelden te demonstreren tijdens inferentie. Het is niet goed begrepen waarom ICL-vaardigheid ontstaat, aangezien het model nooit specifiek is getraind op dergelijke demonstraties. In tegenstelling tot eerder werk dat impliciete mechanismen achter ICL onderzoekt, bestuderen wij ICL door de pretrainingsdata te onderzoeken. Specifiek passen we eerst een iteratieve, op gradienten gebaseerde aanpak toe om een kleine subset van pretrainingsdata te vinden die ICL ondersteunt. We observeren dat voortgezette pretraining op deze kleine subset de ICL-vaardigheid van het model aanzienlijk verbetert, met wel 18%. Vervolgens vergelijken we de ondersteunende subset contrastief met willekeurige subsets van pretrainingsdata en ontdekken: (1) De ondersteunende pretrainingsdata voor ICL hebben geen hogere domeinrelevantie voor downstream taken. (2) De ondersteunende pretrainingsdata bevatten een hogere concentratie van zeldzaam voorkomende, long-tail tokens. (3) De ondersteunende pretrainingsdata zijn uitdagende voorbeelden waarbij de informatieopbrengst uit langeafstandscontext onder het gemiddelde ligt, wat aangeeft dat het leren om moeilijke langeafstandscontext te incorporeren ICL bevordert. Ons werk zet een eerste stap naar het begrijpen van ICL door het analyseren van pretrainingsdata op instanceniveau. Onze inzichten hebben het potentieel om de ICL-vaardigheid van taalmodellen te verbeteren door actief de constructie van pretrainingsdata in de toekomst te begeleiden.

English

In-context learning (ICL) improves language models' performance on a variety of NLP tasks by simply demonstrating a handful of examples at inference time. It is not well understood why ICL ability emerges, as the model has never been specifically trained on such demonstrations. Unlike prior work that explores implicit mechanisms behind ICL, we study ICL via investigating the pretraining data. Specifically, we first adapt an iterative, gradient-based approach to find a small subset of pretraining data that supports ICL. We observe that a continued pretraining on this small subset significantly improves the model's ICL ability, by up to 18%. We then compare the supportive subset constrastively with random subsets of pretraining data and discover: (1) The supportive pretraining data to ICL do not have a higher domain relevance to downstream tasks. (2) The supportive pretraining data have a higher mass of rarely occurring, long-tail tokens. (3) The supportive pretraining data are challenging examples where the information gain from long-range context is below average, indicating learning to incorporate difficult long-range context encourages ICL. Our work takes a first step towards understanding ICL via analyzing instance-level pretraining data. Our insights have a potential to enhance the ICL ability of language models by actively guiding the construction of pretraining data in the future.

In-context leren begrijpen via ondersteunende voorafgaande trainingsdata

Understanding In-Context Learning via Supportive Pretraining Data

Samenvatting

Support