ChatPaper.aiChatPaper

Modélisation du langage à longue portée avec auto-récupération

Long-range Language Modeling with Self-retrieval

June 23, 2023
Auteurs: Ohad Rubin, Jonathan Berant
cs.AI

Résumé

Les modèles de langage augmentés par recherche (Retrieval-augmented Language Models, LMs) ont récemment suscité un intérêt considérable. Cependant, le système de recherche (retriever) n'est généralement pas entraîné conjointement en tant que composant natif du modèle de langage, mais est ajouté à un LM déjà pré-entraîné, ce qui limite la capacité du LM et du retriever à s'adapter mutuellement. Dans ce travail, nous proposons le Retrieval-Pretrained Transformer (RPT), une architecture et une procédure d'entraînement permettant de co-entraîner un modèle de langage augmenté par recherche dès le départ pour la tâche de modélisation de textes longs. Étant donné un segment de texte récemment généré dans un document long, le LM calcule des représentations de requête, qui sont ensuite utilisées pour récupérer des segments antérieurs du document, potentiellement situés des dizaines de milliers de tokens en amont. Les informations des segments récupérés sont fusionnées dans les représentations du LM pour prédire le segment cible suivant. Nous entraînons le composant de recherche avec un objectif sémantique, où le but est de récupérer des segments qui augmentent la probabilité du segment suivant, selon un LM de référence. Nous évaluons RPT sur quatre tâches de modélisation de langage à long terme, couvrant des livres, du code et des écrits mathématiques, et démontrons que RPT améliore la qualité de la recherche et, par conséquent, réduit la perplexité de manière significative par rapport à des modèles de référence solides.
English
Retrieval-augmented language models (LMs) have received much attention recently. However, typically the retriever is not trained jointly as a native component of the LM, but added to an already-pretrained LM, which limits the ability of the LM and the retriever to adapt to one another. In this work, we propose the Retrieval-Pretrained Transformer (RPT), an architecture and training procedure for jointly training a retrieval-augmented LM from scratch for the task of modeling long texts. Given a recently generated text chunk in a long document, the LM computes query representations, which are then used to retrieve earlier chunks in the document, located potentially tens of thousands of tokens before. Information from retrieved chunks is fused into the LM representations to predict the next target chunk. We train the retriever component with a semantic objective, where the goal is to retrieve chunks that increase the probability of the next chunk, according to a reference LM. We evaluate RPT on four long-range language modeling tasks, spanning books, code, and mathematical writing, and demonstrate that RPT improves retrieval quality and subsequently perplexity across the board compared to strong baselines.
PDF160December 15, 2024