ChatPaper.aiChatPaper

Кэшированные трансформеры: улучшение трансформеров с помощью дифференцируемого кэша памяти

Cached Transformers: Improving Transformers with Differentiable Memory Cache

December 20, 2023
Авторы: Zhaoyang Zhang, Wenqi Shao, Yixiao Ge, Xiaogang Wang, Jinwei Gu, Ping Luo
cs.AI

Аннотация

В данной работе представлена новая модель Transformer под названием Cached Transformer, которая использует механизм внимания с кэшированием на основе рекуррентных ворот (Gated Recurrent Cached, GRC) для расширения механизма самовнимания за счет дифференцируемого кэша токенов. GRC-внимание позволяет учитывать как прошлые, так и текущие токены, увеличивая область восприятия внимания и обеспечивая возможность исследования долгосрочных зависимостей. Благодаря использованию рекуррентного блока ворот для непрерывного обновления кэша, наша модель демонстрирует значительные улучшения в шести задачах, связанных с обработкой языка и изображений, включая языковое моделирование, машинный перевод, ListOPs, классификацию изображений, обнаружение объектов и сегментацию экземпляров. Кроме того, наш подход превосходит предыдущие методы, основанные на памяти, в таких задачах, как языковое моделирование, и демонстрирует возможность применения в более широком диапазоне ситуаций.
English
This work introduces a new Transformer model called Cached Transformer, which uses Gated Recurrent Cached (GRC) attention to extend the self-attention mechanism with a differentiable memory cache of tokens. GRC attention enables attending to both past and current tokens, increasing the receptive field of attention and allowing for exploring long-range dependencies. By utilizing a recurrent gating unit to continuously update the cache, our model achieves significant advancements in six language and vision tasks, including language modeling, machine translation, ListOPs, image classification, object detection, and instance segmentation. Furthermore, our approach surpasses previous memory-based techniques in tasks such as language modeling and displays the ability to be applied to a broader range of situations.
PDF141December 15, 2024