Transformers avec cache : Amélioration des Transformers grâce à une mémoire différentiable
Cached Transformers: Improving Transformers with Differentiable Memory Cache
December 20, 2023
papers.authors: Zhaoyang Zhang, Wenqi Shao, Yixiao Ge, Xiaogang Wang, Jinwei Gu, Ping Luo
cs.AI
papers.abstract
Ce travail présente un nouveau modèle Transformer appelé Cached Transformer, qui utilise un mécanisme d'attention Gated Recurrent Cached (GRC) pour étendre le mécanisme d'auto-attention avec un cache de mémoire différentiable de tokens. L'attention GRC permet de se concentrer à la fois sur les tokens passés et actuels, augmentant ainsi le champ réceptif de l'attention et permettant d'explorer les dépendances à long terme. En utilisant une unité de gating récurrente pour mettre à jour continuellement le cache, notre modèle réalise des avancées significatives dans six tâches de langage et de vision, notamment la modélisation du langage, la traduction automatique, les ListOPs, la classification d'images, la détection d'objets et la segmentation d'instances. De plus, notre approche surpasse les techniques précédentes basées sur la mémoire dans des tâches telles que la modélisation du langage et démontre la capacité à être appliquée à un plus large éventail de situations.
English
This work introduces a new Transformer model called Cached Transformer, which
uses Gated Recurrent Cached (GRC) attention to extend the self-attention
mechanism with a differentiable memory cache of tokens. GRC attention enables
attending to both past and current tokens, increasing the receptive field of
attention and allowing for exploring long-range dependencies. By utilizing a
recurrent gating unit to continuously update the cache, our model achieves
significant advancements in six language and vision tasks, including
language modeling, machine translation, ListOPs, image classification, object
detection, and instance segmentation. Furthermore, our approach surpasses
previous memory-based techniques in tasks such as language modeling and
displays the ability to be applied to a broader range of situations.