Cached Transformers: Verbesserung von Transformern durch differenzierbaren Speicher-Cache

papers.abstract

Diese Arbeit stellt ein neues Transformer-Modell namens Cached Transformer vor, das Gated Recurrent Cached (GRC) Attention verwendet, um den Selbstaufmerksamkeitsmechanismus durch einen differenzierbaren Speichercache von Tokens zu erweitern. GRC Attention ermöglicht es, sowohl vergangene als auch aktuelle Tokens zu berücksichtigen, wodurch das rezeptive Feld der Aufmerksamkeit vergrößert und die Erforschung von langreichweitigen Abhängigkeiten ermöglicht wird. Durch die Verwendung einer rekurrenten Gating-Einheit zur kontinuierlichen Aktualisierung des Caches erzielt unser Modell signifikante Fortschritte in sechs Sprach- und Vision-Aufgaben, darunter Sprachmodellierung, maschinelle Übersetzung, ListOPs, Bildklassifizierung, Objekterkennung und Instanzsegmentierung. Darüber hinaus übertrifft unser Ansatz bisherige speicherbasierte Techniken in Aufgaben wie der Sprachmodellierung und zeigt die Fähigkeit, auf ein breiteres Anwendungsspektrum übertragen zu werden.

English

This work introduces a new Transformer model called Cached Transformer, which uses Gated Recurrent Cached (GRC) attention to extend the self-attention mechanism with a differentiable memory cache of tokens. GRC attention enables attending to both past and current tokens, increasing the receptive field of attention and allowing for exploring long-range dependencies. By utilizing a recurrent gating unit to continuously update the cache, our model achieves significant advancements in six language and vision tasks, including language modeling, machine translation, ListOPs, image classification, object detection, and instance segmentation. Furthermore, our approach surpasses previous memory-based techniques in tasks such as language modeling and displays the ability to be applied to a broader range of situations.

Cached Transformers: Verbesserung von Transformern durch differenzierbaren Speicher-Cache

Cached Transformers: Improving Transformers with Differentiable Memory Cache

papers.abstract

Support