Langetermijn Taalmodelering met Zelfretrieval

Samenvatting

Retrieval-augmented taalmodellen (LMs) hebben recentelijk veel aandacht gekregen. Meestal wordt de retriever echter niet gezamenlijk getraind als een inherent onderdeel van het LM, maar toegevoegd aan een reeds voorgetraind LM, wat de mogelijkheid van het LM en de retriever om zich aan elkaar aan te passen beperkt. In dit werk stellen we de Retrieval-Pretrained Transformer (RPT) voor, een architectuur en trainingsprocedure voor het gezamenlijk trainen van een retrieval-augmented LM vanaf nul voor de taak van het modelleren van lange teksten. Gegeven een recent gegenereerd tekstgedeelte in een lang document, berekent het LM query-representaties, die vervolgens worden gebruikt om eerdere gedeelten in het document op te halen, die mogelijk tienduizenden tokens eerder zijn geplaatst. Informatie uit opgehaalde gedeelten wordt samengevoegd in de LM-representaties om het volgende doelgedeelte te voorspellen. We trainen de retriever-component met een semantisch doel, waarbij het doel is om gedeelten op te halen die de waarschijnlijkheid van het volgende gedeelte vergroten, volgens een referentie-LM. We evalueren RPT op vier langetermijn-taalmodelleertaken, variërend van boeken, code en wiskundige teksten, en tonen aan dat RPT de retrievalkwaliteit en vervolgens de perplexiteit over de hele linie verbetert in vergelijking met sterke baselines.

English

Retrieval-augmented language models (LMs) have received much attention recently. However, typically the retriever is not trained jointly as a native component of the LM, but added to an already-pretrained LM, which limits the ability of the LM and the retriever to adapt to one another. In this work, we propose the Retrieval-Pretrained Transformer (RPT), an architecture and training procedure for jointly training a retrieval-augmented LM from scratch for the task of modeling long texts. Given a recently generated text chunk in a long document, the LM computes query representations, which are then used to retrieve earlier chunks in the document, located potentially tens of thousands of tokens before. Information from retrieved chunks is fused into the LM representations to predict the next target chunk. We train the retriever component with a semantic objective, where the goal is to retrieve chunks that increase the probability of the next chunk, according to a reference LM. We evaluate RPT on four long-range language modeling tasks, spanning books, code, and mathematical writing, and demonstrate that RPT improves retrieval quality and subsequently perplexity across the board compared to strong baselines.

Langetermijn Taalmodelering met Zelfretrieval

Long-range Language Modeling with Self-retrieval

Samenvatting

Support