Gecachte Transformers: Transformers verbeteren met differentieerbaar geheugencache
Cached Transformers: Improving Transformers with Differentiable Memory Cache
December 20, 2023
Auteurs: Zhaoyang Zhang, Wenqi Shao, Yixiao Ge, Xiaogang Wang, Jinwei Gu, Ping Luo
cs.AI
Samenvatting
Dit werk introduceert een nieuw Transformer-model genaamd Cached Transformer, dat
Gated Recurrent Cached (GRC) attention gebruikt om het self-attention
mechanisme uit te breiden met een differentieerbaar geheugencache van tokens. GRC attention maakt het mogelijk
om zowel naar verleden als huidige tokens aandacht te besteden, waardoor het receptieve veld van
attention wordt vergroot en het mogelijk wordt om langeafstandsafhankelijkheden te verkennen. Door een
recurrent gating unit te gebruiken om de cache continu bij te werken, behaalt ons model
aanzienlijke vooruitgang in zes taal- en visietaken, waaronder
taalmodellering, machinaal vertalen, ListOPs, beeldclassificatie, objectdetectie
en instancesegmentatie. Bovendien overtreft onze aanpak
eerdere geheugen-gebaseerde technieken in taken zoals taalmodellering en
toont het vermogen om in een breder scala aan situaties toegepast te worden.
English
This work introduces a new Transformer model called Cached Transformer, which
uses Gated Recurrent Cached (GRC) attention to extend the self-attention
mechanism with a differentiable memory cache of tokens. GRC attention enables
attending to both past and current tokens, increasing the receptive field of
attention and allowing for exploring long-range dependencies. By utilizing a
recurrent gating unit to continuously update the cache, our model achieves
significant advancements in six language and vision tasks, including
language modeling, machine translation, ListOPs, image classification, object
detection, and instance segmentation. Furthermore, our approach surpasses
previous memory-based techniques in tasks such as language modeling and
displays the ability to be applied to a broader range of situations.