Langstrecken-Sprachmodellierung mit Selbstabruf
Long-range Language Modeling with Self-retrieval
June 23, 2023
Autoren: Ohad Rubin, Jonathan Berant
cs.AI
Zusammenfassung
Retrieval-augmentierte Sprachmodelle (LMs) haben in letzter Zeit viel Aufmerksamkeit erhalten. Typischerweise wird der Retriever jedoch nicht gemeinsam als integraler Bestandteil des LM trainiert, sondern einem bereits vortrainierten LM hinzugefügt, was die Fähigkeit des LM und des Retrievers, sich aneinander anzupassen, einschränkt. In dieser Arbeit schlagen wir den Retrieval-Pretrained Transformer (RPT) vor, eine Architektur und ein Trainingsverfahren, um ein retrieval-augmentiertes LM von Grund auf für die Aufgabe der Modellierung langer Texte gemeinsam zu trainieren. Bei einem kürzlich generierten Textabschnitt in einem langen Dokument berechnet das LM Abfragedarstellungen, die dann verwendet werden, um frühere Abschnitte im Dokument zu finden, die möglicherweise zehntausende von Token zurückliegen. Informationen aus den abgerufenen Abschnitten werden in die LM-Darstellungen integriert, um den nächsten Zielabschnitt vorherzusagen. Wir trainieren die Retriever-Komponente mit einem semantischen Ziel, bei dem es darum geht, Abschnitte abzurufen, die die Wahrscheinlichkeit des nächsten Abschnitts gemäß einem Referenz-LM erhöhen. Wir evaluieren RPT anhand von vier Langstrecken-Sprachmodellierungsaufgaben, die Bücher, Code und mathematische Texte umfassen, und zeigen, dass RPT die Retrieval-Qualität und anschließend die Perplexität im Vergleich zu starken Baselines durchgängig verbessert.
English
Retrieval-augmented language models (LMs) have received much attention
recently. However, typically the retriever is not trained jointly as a native
component of the LM, but added to an already-pretrained LM, which limits the
ability of the LM and the retriever to adapt to one another. In this work, we
propose the Retrieval-Pretrained Transformer (RPT), an architecture and
training procedure for jointly training a retrieval-augmented LM from scratch
for the task of modeling long texts. Given a recently generated text chunk in a
long document, the LM computes query representations, which are then used to
retrieve earlier chunks in the document, located potentially tens of thousands
of tokens before. Information from retrieved chunks is fused into the LM
representations to predict the next target chunk. We train the retriever
component with a semantic objective, where the goal is to retrieve chunks that
increase the probability of the next chunk, according to a reference LM. We
evaluate RPT on four long-range language modeling tasks, spanning books, code,
and mathematical writing, and demonstrate that RPT improves retrieval quality
and subsequently perplexity across the board compared to strong baselines.