Pre-addestramento in contesto: Modellazione del linguaggio oltre i confini dei documenti
In-Context Pretraining: Language Modeling Beyond Document Boundaries
October 16, 2023
Autori: Weijia Shi, Sewon Min, Maria Lomeli, Chunting Zhou, Margaret Li, Victoria Lin, Noah A. Smith, Luke Zettlemoyer, Scott Yih, Mike Lewis
cs.AI
Abstract
I grandi modelli linguistici (LM) vengono attualmente addestrati a prevedere i token dati i prefissi dei documenti, consentendo loro di eseguire direttamente la generazione di testi lunghi e compiti di prompting che possono essere ridotti al completamento di documenti. Le pipeline di pre-addestramento esistenti addestrano i LM concatenando insiemi casuali di documenti brevi per creare contesti di input, ma i documenti precedenti non forniscono alcun segnale per prevedere il documento successivo. Presentiamo invece l'In-Context Pretraining, un nuovo approccio in cui i modelli linguistici vengono pre-addestrati su una sequenza di documenti correlati, incoraggiandoli esplicitamente a leggere e ragionare oltre i confini dei documenti. Possiamo eseguire l'In-Context Pretraining semplicemente modificando l'ordinamento dei documenti in modo che ogni contesto contenga documenti correlati e applicando direttamente le pipeline di pre-addestramento esistenti. Tuttavia, questo problema di ordinamento dei documenti è complesso. Ci sono miliardi di documenti e vorremmo che l'ordinamento massimizzi la similarità contestuale per ogni documento senza ripetere alcun dato. Per fare ciò, introduciamo algoritmi approssimati per trovare documenti correlati con una ricerca efficiente dei vicini più prossimi e per costruire contesti di input coerenti con un algoritmo di attraversamento di grafi. I nostri esperimenti mostrano che l'In-Context Pretraining offre un approccio semplice e scalabile per migliorare significativamente le prestazioni dei LM: osserviamo notevoli miglioramenti nei compiti che richiedono un ragionamento contestuale più complesso, tra cui l'apprendimento in-context (+8%), la comprensione della lettura (+15%), la fedeltà ai contesti precedenti (+16%), il ragionamento su contesti lunghi (+5%) e l'augmentation con il recupero di informazioni (+9%).
English
Large language models (LMs) are currently trained to predict tokens given
document prefixes, enabling them to directly perform long-form generation and
prompting-style tasks which can be reduced to document completion. Existing
pretraining pipelines train LMs by concatenating random sets of short documents
to create input contexts but the prior documents provide no signal for
predicting the next document. We instead present In-Context Pretraining, a new
approach where language models are pretrained on a sequence of related
documents, thereby explicitly encouraging them to read and reason across
document boundaries. We can do In-Context Pretraining by simply changing the
document ordering so that each context contains related documents, and directly
applying existing pretraining pipelines. However, this document sorting problem
is challenging. There are billions of documents and we would like the sort to
maximize contextual similarity for every document without repeating any data.
To do this, we introduce approximate algorithms for finding related documents
with efficient nearest neighbor search and constructing coherent input contexts
with a graph traversal algorithm. Our experiments show In-Context Pretraining
offers a simple and scalable approach to significantly enhance LMs'performance:
we see notable improvements in tasks that require more complex contextual
reasoning, including in-context learning (+8%), reading comprehension (+15%),
faithfulness to previous contexts (+16%), long-context reasoning (+5%), and
retrieval augmentation (+9%).