Transformador de Memoria Recurrente Asociativa

Resumen

Este documento aborda el desafío de crear una arquitectura neuronal para secuencias muy largas que requiere tiempo constante para procesar nueva información en cada paso de tiempo. Nuestro enfoque, el Transformador de Memoria Recurrente Asociativa (ARMT), se basa en la autoatención del transformador para contexto local y recurrencia a nivel de segmento para el almacenamiento de información específica de la tarea distribuida en un contexto largo. Demostramos que ARMT supera a las alternativas existentes en tareas de recuperación asociativa y establece un nuevo récord de rendimiento en el reciente banco de pruebas multi-tarea de largo contexto BABILong al responder preguntas de un solo hecho sobre más de 50 millones de tokens con una precisión del 79.9%. El código fuente para entrenamiento y evaluación está disponible en github.

English

This paper addresses the challenge of creating a neural architecture for very long sequences that requires constant time for processing new information at each time step. Our approach, Associative Recurrent Memory Transformer (ARMT), is based on transformer self-attention for local context and segment-level recurrence for storage of task specific information distributed over a long context. We demonstrate that ARMT outperfors existing alternatives in associative retrieval tasks and sets a new performance record in the recent BABILong multi-task long-context benchmark by answering single-fact questions over 50 million tokens with an accuracy of 79.9%. The source code for training and evaluation is available on github.