Comprendere l'Apprendimento In-Contesto attraverso Dati di Pretraining di Supporto

Abstract

L'apprendimento in contesto (In-context Learning, ICL) migliora le prestazioni dei modelli linguistici su una varietà di task NLP semplicemente mostrando alcuni esempi al momento dell'inferenza. Non è ancora ben compreso perché emerga la capacità di ICL, dato che il modello non è mai stato specificamente addestrato su tali dimostrazioni. A differenza di lavori precedenti che esplorano i meccanismi impliciti dietro l'ICL, noi studiamo l'ICL investigando i dati di pre-addestramento. Nello specifico, adattiamo prima un approccio iterativo basato su gradienti per trovare un piccolo sottoinsieme di dati di pre-addestramento che supporta l'ICL. Osserviamo che un ulteriore pre-addestramento su questo piccolo sottoinsieme migliora significativamente la capacità di ICL del modello, fino al 18%. Confrontiamo poi il sottoinsieme di supporto in modo contrastivo con sottoinsiemi casuali di dati di pre-addestramento e scopriamo: (1) I dati di pre-addestramento che supportano l'ICL non hanno una maggiore rilevanza di dominio rispetto ai task downstream. (2) I dati di pre-addestramento di supporto presentano una maggiore quantità di token rari e a coda lunga. (3) I dati di pre-addestramento di supporto sono esempi complessi in cui il guadagno informativo dal contesto a lungo raggio è inferiore alla media, indicando che imparare a incorporare contesti a lungo raggio difficili favorisce l'ICL. Il nostro lavoro rappresenta un primo passo verso la comprensione dell'ICL attraverso l'analisi dei dati di pre-addestramento a livello di istanza. Le nostre intuizioni hanno il potenziale di migliorare la capacità di ICL dei modelli linguistici guidando attivamente la costruzione dei dati di pre-addestramento in futuro.

English

In-context learning (ICL) improves language models' performance on a variety of NLP tasks by simply demonstrating a handful of examples at inference time. It is not well understood why ICL ability emerges, as the model has never been specifically trained on such demonstrations. Unlike prior work that explores implicit mechanisms behind ICL, we study ICL via investigating the pretraining data. Specifically, we first adapt an iterative, gradient-based approach to find a small subset of pretraining data that supports ICL. We observe that a continued pretraining on this small subset significantly improves the model's ICL ability, by up to 18%. We then compare the supportive subset constrastively with random subsets of pretraining data and discover: (1) The supportive pretraining data to ICL do not have a higher domain relevance to downstream tasks. (2) The supportive pretraining data have a higher mass of rarely occurring, long-tail tokens. (3) The supportive pretraining data are challenging examples where the information gain from long-range context is below average, indicating learning to incorporate difficult long-range context encourages ICL. Our work takes a first step towards understanding ICL via analyzing instance-level pretraining data. Our insights have a potential to enhance the ICL ability of language models by actively guiding the construction of pretraining data in the future.