Transformatori con Cache: Migliorare i Transformers con Memoria Differenziabile in Cache

Abstract

Questo lavoro introduce un nuovo modello Transformer chiamato Cached Transformer, che utilizza l'attenzione Gated Recurrent Cached (GRC) per estendere il meccanismo di self-attention con una cache di memoria differenziabile di token. L'attenzione GRC consente di prestare attenzione sia ai token passati che a quelli correnti, aumentando il campo ricettivo dell'attenzione e permettendo di esplorare dipendenze a lungo raggio. Utilizzando un'unità di gating ricorrente per aggiornare continuamente la cache, il nostro modello raggiunge progressi significativi in sei task di linguaggio e visione, tra cui modellazione del linguaggio, traduzione automatica, ListOPs, classificazione di immagini, rilevamento di oggetti e segmentazione di istanze. Inoltre, il nostro approccio supera le precedenti tecniche basate sulla memoria in task come la modellazione del linguaggio e dimostra la capacità di essere applicato a una gamma più ampia di situazioni.

English

This work introduces a new Transformer model called Cached Transformer, which uses Gated Recurrent Cached (GRC) attention to extend the self-attention mechanism with a differentiable memory cache of tokens. GRC attention enables attending to both past and current tokens, increasing the receptive field of attention and allowing for exploring long-range dependencies. By utilizing a recurrent gating unit to continuously update the cache, our model achieves significant advancements in six language and vision tasks, including language modeling, machine translation, ListOPs, image classification, object detection, and instance segmentation. Furthermore, our approach surpasses previous memory-based techniques in tasks such as language modeling and displays the ability to be applied to a broader range of situations.

Transformatori con Cache: Migliorare i Transformers con Memoria Differenziabile in Cache

Cached Transformers: Improving Transformers with Differentiable Memory Cache

Abstract

Support