Transformadores con Caché: Mejorando Transformadores con Memoria Caché Diferenciable
Cached Transformers: Improving Transformers with Differentiable Memory Cache
December 20, 2023
Autores: Zhaoyang Zhang, Wenqi Shao, Yixiao Ge, Xiaogang Wang, Jinwei Gu, Ping Luo
cs.AI
Resumen
Este trabajo presenta un nuevo modelo Transformer llamado Cached Transformer, que utiliza atención con Caché Recurrente Ponderada (GRC) para extender el mecanismo de auto-atención con una caché de memoria diferenciable de tokens. La atención GRC permite atender tanto a tokens pasados como actuales, aumentando el campo receptivo de la atención y permitiendo explorar dependencias de largo alcance. Al utilizar una unidad de ponderación recurrente para actualizar continuamente la caché, nuestro modelo logra avances significativos en seis tareas de lenguaje y visión, incluyendo modelado de lenguaje, traducción automática, ListOPs, clasificación de imágenes, detección de objetos y segmentación de instancias. Además, nuestro enfoque supera técnicas anteriores basadas en memoria en tareas como el modelado de lenguaje y demuestra la capacidad de aplicarse a un rango más amplio de situaciones.
English
This work introduces a new Transformer model called Cached Transformer, which
uses Gated Recurrent Cached (GRC) attention to extend the self-attention
mechanism with a differentiable memory cache of tokens. GRC attention enables
attending to both past and current tokens, increasing the receptive field of
attention and allowing for exploring long-range dependencies. By utilizing a
recurrent gating unit to continuously update the cache, our model achieves
significant advancements in six language and vision tasks, including
language modeling, machine translation, ListOPs, image classification, object
detection, and instance segmentation. Furthermore, our approach surpasses
previous memory-based techniques in tasks such as language modeling and
displays the ability to be applied to a broader range of situations.