Transformatori con Cache: Migliorare i Transformers con Memoria Differenziabile in Cache
Cached Transformers: Improving Transformers with Differentiable Memory Cache
December 20, 2023
Autori: Zhaoyang Zhang, Wenqi Shao, Yixiao Ge, Xiaogang Wang, Jinwei Gu, Ping Luo
cs.AI
Abstract
Questo lavoro introduce un nuovo modello Transformer chiamato Cached Transformer, che utilizza l'attenzione Gated Recurrent Cached (GRC) per estendere il meccanismo di self-attention con una cache di memoria differenziabile di token. L'attenzione GRC consente di prestare attenzione sia ai token passati che a quelli correnti, aumentando il campo ricettivo dell'attenzione e permettendo di esplorare dipendenze a lungo raggio. Utilizzando un'unità di gating ricorrente per aggiornare continuamente la cache, il nostro modello raggiunge progressi significativi in sei task di linguaggio e visione, tra cui modellazione del linguaggio, traduzione automatica, ListOPs, classificazione di immagini, rilevamento di oggetti e segmentazione di istanze. Inoltre, il nostro approccio supera le precedenti tecniche basate sulla memoria in task come la modellazione del linguaggio e dimostra la capacità di essere applicato a una gamma più ampia di situazioni.
English
This work introduces a new Transformer model called Cached Transformer, which
uses Gated Recurrent Cached (GRC) attention to extend the self-attention
mechanism with a differentiable memory cache of tokens. GRC attention enables
attending to both past and current tokens, increasing the receptive field of
attention and allowing for exploring long-range dependencies. By utilizing a
recurrent gating unit to continuously update the cache, our model achieves
significant advancements in six language and vision tasks, including
language modeling, machine translation, ListOPs, image classification, object
detection, and instance segmentation. Furthermore, our approach surpasses
previous memory-based techniques in tasks such as language modeling and
displays the ability to be applied to a broader range of situations.