Transformadores con Caché: Mejorando Transformadores con Memoria Caché Diferenciable

Resumen

Este trabajo presenta un nuevo modelo Transformer llamado Cached Transformer, que utiliza atención con Caché Recurrente Ponderada (GRC) para extender el mecanismo de auto-atención con una caché de memoria diferenciable de tokens. La atención GRC permite atender tanto a tokens pasados como actuales, aumentando el campo receptivo de la atención y permitiendo explorar dependencias de largo alcance. Al utilizar una unidad de ponderación recurrente para actualizar continuamente la caché, nuestro modelo logra avances significativos en seis tareas de lenguaje y visión, incluyendo modelado de lenguaje, traducción automática, ListOPs, clasificación de imágenes, detección de objetos y segmentación de instancias. Además, nuestro enfoque supera técnicas anteriores basadas en memoria en tareas como el modelado de lenguaje y demuestra la capacidad de aplicarse a un rango más amplio de situaciones.

English

This work introduces a new Transformer model called Cached Transformer, which uses Gated Recurrent Cached (GRC) attention to extend the self-attention mechanism with a differentiable memory cache of tokens. GRC attention enables attending to both past and current tokens, increasing the receptive field of attention and allowing for exploring long-range dependencies. By utilizing a recurrent gating unit to continuously update the cache, our model achieves significant advancements in six language and vision tasks, including language modeling, machine translation, ListOPs, image classification, object detection, and instance segmentation. Furthermore, our approach surpasses previous memory-based techniques in tasks such as language modeling and displays the ability to be applied to a broader range of situations.

Transformadores con Caché: Mejorando Transformadores con Memoria Caché Diferenciable

Cached Transformers: Improving Transformers with Differentiable Memory Cache

Resumen

Support