Кэшированные трансформеры: улучшение трансформеров с помощью дифференцируемого кэша памяти
Cached Transformers: Improving Transformers with Differentiable Memory Cache
December 20, 2023
Авторы: Zhaoyang Zhang, Wenqi Shao, Yixiao Ge, Xiaogang Wang, Jinwei Gu, Ping Luo
cs.AI
Аннотация
В данной работе представлена новая модель Transformer под названием Cached Transformer, которая использует механизм внимания с кэшированием на основе рекуррентных ворот (Gated Recurrent Cached, GRC) для расширения механизма самовнимания за счет дифференцируемого кэша токенов. GRC-внимание позволяет учитывать как прошлые, так и текущие токены, увеличивая область восприятия внимания и обеспечивая возможность исследования долгосрочных зависимостей. Благодаря использованию рекуррентного блока ворот для непрерывного обновления кэша, наша модель демонстрирует значительные улучшения в шести задачах, связанных с обработкой языка и изображений, включая языковое моделирование, машинный перевод, ListOPs, классификацию изображений, обнаружение объектов и сегментацию экземпляров. Кроме того, наш подход превосходит предыдущие методы, основанные на памяти, в таких задачах, как языковое моделирование, и демонстрирует возможность применения в более широком диапазоне ситуаций.
English
This work introduces a new Transformer model called Cached Transformer, which
uses Gated Recurrent Cached (GRC) attention to extend the self-attention
mechanism with a differentiable memory cache of tokens. GRC attention enables
attending to both past and current tokens, increasing the receptive field of
attention and allowing for exploring long-range dependencies. By utilizing a
recurrent gating unit to continuously update the cache, our model achieves
significant advancements in six language and vision tasks, including
language modeling, machine translation, ListOPs, image classification, object
detection, and instance segmentation. Furthermore, our approach surpasses
previous memory-based techniques in tasks such as language modeling and
displays the ability to be applied to a broader range of situations.