Verständnis von In-Context-Lernen durch unterstützende Vortrainingsdaten
Understanding In-Context Learning via Supportive Pretraining Data
June 26, 2023
Autoren: Xiaochuang Han, Daniel Simig, Todor Mihaylov, Yulia Tsvetkov, Asli Celikyilmaz, Tianlu Wang
cs.AI
Zusammenfassung
In-Context-Learning (ICL) verbessert die Leistung von Sprachmodellen bei einer Vielzahl von NLP-Aufgaben, indem einfach einige Beispiele zur Inferenzzeit demonstriert werden. Es ist nicht gut verstanden, warum die Fähigkeit zu ICL entsteht, da das Modell nie speziell auf solche Demonstrationen trainiert wurde. Im Gegensatz zu früheren Arbeiten, die implizite Mechanismen hinter ICL untersuchen, studieren wir ICL durch die Analyse der Vortrainingsdaten. Konkret passen wir zunächst einen iterativen, gradientenbasierten Ansatz an, um eine kleine Teilmenge der Vortrainingsdaten zu finden, die ICL unterstützt. Wir beobachten, dass ein fortgesetztes Vortraining auf dieser kleinen Teilmenge die ICL-Fähigkeit des Modells signifikant verbessert, und zwar um bis zu 18 %. Anschließend vergleichen wir die unterstützende Teilmenge kontrastiv mit zufälligen Teilmengen der Vortrainingsdaten und entdecken: (1) Die ICL-unterstützenden Vortrainingsdaten weisen keine höhere Domänenrelevanz zu den Downstream-Aufgaben auf. (2) Die ICL-unterstützenden Vortrainingsdaten enthalten eine höhere Anzahl von selten auftretenden, langschwänzigen Tokens. (3) Die ICL-unterstützenden Vortrainingsdaten sind herausfordernde Beispiele, bei denen der Informationsgewinn aus langreichweitigem Kontext unterdurchschnittlich ist, was darauf hindeutet, dass das Lernen, schwierigen langreichweitigen Kontext zu integrieren, ICL fördert. Unsere Arbeit unternimmt einen ersten Schritt zum Verständnis von ICL durch die Analyse von instanzbasierten Vortrainingsdaten. Unsere Erkenntnisse haben das Potenzial, die ICL-Fähigkeit von Sprachmodellen zu verbessern, indem sie zukünftig die Konstruktion von Vortrainingsdaten aktiv lenken.
English
In-context learning (ICL) improves language models' performance on a variety
of NLP tasks by simply demonstrating a handful of examples at inference time.
It is not well understood why ICL ability emerges, as the model has never been
specifically trained on such demonstrations. Unlike prior work that explores
implicit mechanisms behind ICL, we study ICL via investigating the pretraining
data. Specifically, we first adapt an iterative, gradient-based approach to
find a small subset of pretraining data that supports ICL. We observe that a
continued pretraining on this small subset significantly improves the model's
ICL ability, by up to 18%. We then compare the supportive subset constrastively
with random subsets of pretraining data and discover: (1) The supportive
pretraining data to ICL do not have a higher domain relevance to downstream
tasks. (2) The supportive pretraining data have a higher mass of rarely
occurring, long-tail tokens. (3) The supportive pretraining data are
challenging examples where the information gain from long-range context is
below average, indicating learning to incorporate difficult long-range context
encourages ICL. Our work takes a first step towards understanding ICL via
analyzing instance-level pretraining data. Our insights have a potential to
enhance the ICL ability of language models by actively guiding the construction
of pretraining data in the future.