Langetermijn Taalmodelering met Zelfretrieval
Long-range Language Modeling with Self-retrieval
June 23, 2023
Auteurs: Ohad Rubin, Jonathan Berant
cs.AI
Samenvatting
Retrieval-augmented taalmodellen (LMs) hebben recentelijk veel aandacht gekregen. Meestal wordt de retriever echter niet gezamenlijk getraind als een inherent onderdeel van het LM, maar toegevoegd aan een reeds voorgetraind LM, wat de mogelijkheid van het LM en de retriever om zich aan elkaar aan te passen beperkt. In dit werk stellen we de Retrieval-Pretrained Transformer (RPT) voor, een architectuur en trainingsprocedure voor het gezamenlijk trainen van een retrieval-augmented LM vanaf nul voor de taak van het modelleren van lange teksten. Gegeven een recent gegenereerd tekstgedeelte in een lang document, berekent het LM query-representaties, die vervolgens worden gebruikt om eerdere gedeelten in het document op te halen, die mogelijk tienduizenden tokens eerder zijn geplaatst. Informatie uit opgehaalde gedeelten wordt samengevoegd in de LM-representaties om het volgende doelgedeelte te voorspellen. We trainen de retriever-component met een semantisch doel, waarbij het doel is om gedeelten op te halen die de waarschijnlijkheid van het volgende gedeelte vergroten, volgens een referentie-LM. We evalueren RPT op vier langetermijn-taalmodelleertaken, variërend van boeken, code en wiskundige teksten, en tonen aan dat RPT de retrievalkwaliteit en vervolgens de perplexiteit over de hele linie verbetert in vergelijking met sterke baselines.
English
Retrieval-augmented language models (LMs) have received much attention
recently. However, typically the retriever is not trained jointly as a native
component of the LM, but added to an already-pretrained LM, which limits the
ability of the LM and the retriever to adapt to one another. In this work, we
propose the Retrieval-Pretrained Transformer (RPT), an architecture and
training procedure for jointly training a retrieval-augmented LM from scratch
for the task of modeling long texts. Given a recently generated text chunk in a
long document, the LM computes query representations, which are then used to
retrieve earlier chunks in the document, located potentially tens of thousands
of tokens before. Information from retrieved chunks is fused into the LM
representations to predict the next target chunk. We train the retriever
component with a semantic objective, where the goal is to retrieve chunks that
increase the probability of the next chunk, according to a reference LM. We
evaluate RPT on four long-range language modeling tasks, spanning books, code,
and mathematical writing, and demonstrate that RPT improves retrieval quality
and subsequently perplexity across the board compared to strong baselines.