Transformador de Memoria Recurrente Asociativa
Associative Recurrent Memory Transformer
July 5, 2024
Autores: Ivan Rodkin, Yuri Kuratov, Aydar Bulatov, Mikhail Burtsev
cs.AI
Resumen
Este documento aborda el desafío de crear una arquitectura neuronal para secuencias muy largas que requiere tiempo constante para procesar nueva información en cada paso de tiempo. Nuestro enfoque, el Transformador de Memoria Recurrente Asociativa (ARMT), se basa en la autoatención del transformador para contexto local y recurrencia a nivel de segmento para el almacenamiento de información específica de la tarea distribuida en un contexto largo. Demostramos que ARMT supera a las alternativas existentes en tareas de recuperación asociativa y establece un nuevo récord de rendimiento en el reciente banco de pruebas multi-tarea de largo contexto BABILong al responder preguntas de un solo hecho sobre más de 50 millones de tokens con una precisión del 79.9%. El código fuente para entrenamiento y evaluación está disponible en github.
English
This paper addresses the challenge of creating a neural architecture for very
long sequences that requires constant time for processing new information at
each time step. Our approach, Associative Recurrent Memory Transformer (ARMT),
is based on transformer self-attention for local context and segment-level
recurrence for storage of task specific information distributed over a long
context. We demonstrate that ARMT outperfors existing alternatives in
associative retrieval tasks and sets a new performance record in the recent
BABILong multi-task long-context benchmark by answering single-fact questions
over 50 million tokens with an accuracy of 79.9%. The source code for training
and evaluation is available on github.Summary
AI-Generated Summary