ChatPaper.aiChatPaper

Ассоциативный Рекуррентный Памятный Трансформер

Associative Recurrent Memory Transformer

July 5, 2024
Авторы: Ivan Rodkin, Yuri Kuratov, Aydar Bulatov, Mikhail Burtsev
cs.AI

Аннотация

Данная статья рассматривает проблему создания нейронной архитектуры для обработки очень длинных последовательностей, требующей постоянного времени для обработки новой информации на каждом временном шаге. Наш подход, Ассоциативный Рекуррентный Памятный Трансформер (ARMT), основан на самовнимании трансформера для локального контекста и рекуррентности на уровне сегментов для хранения информации, специфичной для задачи, распределенной по длинному контексту. Мы демонстрируем, что ARMT превосходит существующие альтернативы в задачах ассоциативного поиска и устанавливает новый рекорд производительности в недавнем многофункциональном длинноконтекстном бенчмарке BABILong, отвечая на вопросы с одним фактом более чем на 50 миллионов токенов с точностью 79,9%. Исходный код для обучения и оценки доступен на github.
English
This paper addresses the challenge of creating a neural architecture for very long sequences that requires constant time for processing new information at each time step. Our approach, Associative Recurrent Memory Transformer (ARMT), is based on transformer self-attention for local context and segment-level recurrence for storage of task specific information distributed over a long context. We demonstrate that ARMT outperfors existing alternatives in associative retrieval tasks and sets a new performance record in the recent BABILong multi-task long-context benchmark by answering single-fact questions over 50 million tokens with an accuracy of 79.9%. The source code for training and evaluation is available on github.

Summary

AI-Generated Summary

PDF372November 28, 2024