Pre-addestramento in contesto: Modellazione del linguaggio oltre i confini dei documenti

Abstract

I grandi modelli linguistici (LM) vengono attualmente addestrati a prevedere i token dati i prefissi dei documenti, consentendo loro di eseguire direttamente la generazione di testi lunghi e compiti di prompting che possono essere ridotti al completamento di documenti. Le pipeline di pre-addestramento esistenti addestrano i LM concatenando insiemi casuali di documenti brevi per creare contesti di input, ma i documenti precedenti non forniscono alcun segnale per prevedere il documento successivo. Presentiamo invece l'In-Context Pretraining, un nuovo approccio in cui i modelli linguistici vengono pre-addestrati su una sequenza di documenti correlati, incoraggiandoli esplicitamente a leggere e ragionare oltre i confini dei documenti. Possiamo eseguire l'In-Context Pretraining semplicemente modificando l'ordinamento dei documenti in modo che ogni contesto contenga documenti correlati e applicando direttamente le pipeline di pre-addestramento esistenti. Tuttavia, questo problema di ordinamento dei documenti è complesso. Ci sono miliardi di documenti e vorremmo che l'ordinamento massimizzi la similarità contestuale per ogni documento senza ripetere alcun dato. Per fare ciò, introduciamo algoritmi approssimati per trovare documenti correlati con una ricerca efficiente dei vicini più prossimi e per costruire contesti di input coerenti con un algoritmo di attraversamento di grafi. I nostri esperimenti mostrano che l'In-Context Pretraining offre un approccio semplice e scalabile per migliorare significativamente le prestazioni dei LM: osserviamo notevoli miglioramenti nei compiti che richiedono un ragionamento contestuale più complesso, tra cui l'apprendimento in-context (+8%), la comprensione della lettura (+15%), la fedeltà ai contesti precedenti (+16%), il ragionamento su contesti lunghi (+5%) e l'augmentation con il recupero di informazioni (+9%).

English

Large language models (LMs) are currently trained to predict tokens given document prefixes, enabling them to directly perform long-form generation and prompting-style tasks which can be reduced to document completion. Existing pretraining pipelines train LMs by concatenating random sets of short documents to create input contexts but the prior documents provide no signal for predicting the next document. We instead present In-Context Pretraining, a new approach where language models are pretrained on a sequence of related documents, thereby explicitly encouraging them to read and reason across document boundaries. We can do In-Context Pretraining by simply changing the document ordering so that each context contains related documents, and directly applying existing pretraining pipelines. However, this document sorting problem is challenging. There are billions of documents and we would like the sort to maximize contextual similarity for every document without repeating any data. To do this, we introduce approximate algorithms for finding related documents with efficient nearest neighbor search and constructing coherent input contexts with a graph traversal algorithm. Our experiments show In-Context Pretraining offers a simple and scalable approach to significantly enhance LMs'performance: we see notable improvements in tasks that require more complex contextual reasoning, including in-context learning (+8%), reading comprehension (+15%), faithfulness to previous contexts (+16%), long-context reasoning (+5%), and retrieval augmentation (+9%).

Pre-addestramento in contesto: Modellazione del linguaggio oltre i confini dei documenti

In-Context Pretraining: Language Modeling Beyond Document Boundaries

Abstract

Support