Verständnis von In-Context-Lernen durch unterstützende Vortrainingsdaten

Zusammenfassung

In-Context-Learning (ICL) verbessert die Leistung von Sprachmodellen bei einer Vielzahl von NLP-Aufgaben, indem einfach einige Beispiele zur Inferenzzeit demonstriert werden. Es ist nicht gut verstanden, warum die Fähigkeit zu ICL entsteht, da das Modell nie speziell auf solche Demonstrationen trainiert wurde. Im Gegensatz zu früheren Arbeiten, die implizite Mechanismen hinter ICL untersuchen, studieren wir ICL durch die Analyse der Vortrainingsdaten. Konkret passen wir zunächst einen iterativen, gradientenbasierten Ansatz an, um eine kleine Teilmenge der Vortrainingsdaten zu finden, die ICL unterstützt. Wir beobachten, dass ein fortgesetztes Vortraining auf dieser kleinen Teilmenge die ICL-Fähigkeit des Modells signifikant verbessert, und zwar um bis zu 18 %. Anschließend vergleichen wir die unterstützende Teilmenge kontrastiv mit zufälligen Teilmengen der Vortrainingsdaten und entdecken: (1) Die ICL-unterstützenden Vortrainingsdaten weisen keine höhere Domänenrelevanz zu den Downstream-Aufgaben auf. (2) Die ICL-unterstützenden Vortrainingsdaten enthalten eine höhere Anzahl von selten auftretenden, langschwänzigen Tokens. (3) Die ICL-unterstützenden Vortrainingsdaten sind herausfordernde Beispiele, bei denen der Informationsgewinn aus langreichweitigem Kontext unterdurchschnittlich ist, was darauf hindeutet, dass das Lernen, schwierigen langreichweitigen Kontext zu integrieren, ICL fördert. Unsere Arbeit unternimmt einen ersten Schritt zum Verständnis von ICL durch die Analyse von instanzbasierten Vortrainingsdaten. Unsere Erkenntnisse haben das Potenzial, die ICL-Fähigkeit von Sprachmodellen zu verbessern, indem sie zukünftig die Konstruktion von Vortrainingsdaten aktiv lenken.

English

In-context learning (ICL) improves language models' performance on a variety of NLP tasks by simply demonstrating a handful of examples at inference time. It is not well understood why ICL ability emerges, as the model has never been specifically trained on such demonstrations. Unlike prior work that explores implicit mechanisms behind ICL, we study ICL via investigating the pretraining data. Specifically, we first adapt an iterative, gradient-based approach to find a small subset of pretraining data that supports ICL. We observe that a continued pretraining on this small subset significantly improves the model's ICL ability, by up to 18%. We then compare the supportive subset constrastively with random subsets of pretraining data and discover: (1) The supportive pretraining data to ICL do not have a higher domain relevance to downstream tasks. (2) The supportive pretraining data have a higher mass of rarely occurring, long-tail tokens. (3) The supportive pretraining data are challenging examples where the information gain from long-range context is below average, indicating learning to incorporate difficult long-range context encourages ICL. Our work takes a first step towards understanding ICL via analyzing instance-level pretraining data. Our insights have a potential to enhance the ICL ability of language models by actively guiding the construction of pretraining data in the future.

Verständnis von In-Context-Lernen durch unterstützende Vortrainingsdaten

Understanding In-Context Learning via Supportive Pretraining Data

Zusammenfassung

Support