Modelado de Lenguaje de Largo Alcance con Autorecuperación
Long-range Language Modeling with Self-retrieval
June 23, 2023
Autores: Ohad Rubin, Jonathan Berant
cs.AI
Resumen
Los modelos de lenguaje aumentados con recuperación (LMs) han recibido mucha atención recientemente. Sin embargo, normalmente el recuperador no se entrena de manera conjunta como un componente nativo del LM, sino que se añade a un LM ya preentrenado, lo que limita la capacidad del LM y el recuperador para adaptarse mutuamente. En este trabajo, proponemos el Transformer Preentrenado con Recuperación (RPT), una arquitectura y procedimiento de entrenamiento para entrenar conjuntamente un LM aumentado con recuperación desde cero para la tarea de modelar textos largos. Dado un fragmento de texto recientemente generado en un documento extenso, el LM calcula representaciones de consulta, que luego se utilizan para recuperar fragmentos anteriores en el documento, ubicados potencialmente decenas de miles de tokens antes. La información de los fragmentos recuperados se fusiona en las representaciones del LM para predecir el siguiente fragmento objetivo. Entrenamos el componente de recuperación con un objetivo semántico, donde la meta es recuperar fragmentos que aumenten la probabilidad del siguiente fragmento, según un LM de referencia. Evaluamos RPT en cuatro tareas de modelado de lenguaje de largo alcance, que abarcan libros, código y escritura matemática, y demostramos que RPT mejora la calidad de la recuperación y, en consecuencia, la perplejidad en general en comparación con líneas base sólidas.
English
Retrieval-augmented language models (LMs) have received much attention
recently. However, typically the retriever is not trained jointly as a native
component of the LM, but added to an already-pretrained LM, which limits the
ability of the LM and the retriever to adapt to one another. In this work, we
propose the Retrieval-Pretrained Transformer (RPT), an architecture and
training procedure for jointly training a retrieval-augmented LM from scratch
for the task of modeling long texts. Given a recently generated text chunk in a
long document, the LM computes query representations, which are then used to
retrieve earlier chunks in the document, located potentially tens of thousands
of tokens before. Information from retrieved chunks is fused into the LM
representations to predict the next target chunk. We train the retriever
component with a semantic objective, where the goal is to retrieve chunks that
increase the probability of the next chunk, according to a reference LM. We
evaluate RPT on four long-range language modeling tasks, spanning books, code,
and mathematical writing, and demonstrate that RPT improves retrieval quality
and subsequently perplexity across the board compared to strong baselines.