Cached Transformers: Verbesserung von Transformern durch differenzierbaren Speicher-Cache
Cached Transformers: Improving Transformers with Differentiable Memory Cache
December 20, 2023
Autoren: Zhaoyang Zhang, Wenqi Shao, Yixiao Ge, Xiaogang Wang, Jinwei Gu, Ping Luo
cs.AI
Zusammenfassung
Diese Arbeit stellt ein neues Transformer-Modell namens Cached Transformer vor, das Gated Recurrent Cached (GRC) Attention verwendet, um den Selbstaufmerksamkeitsmechanismus durch einen differenzierbaren Speichercache von Tokens zu erweitern. GRC Attention ermöglicht es, sowohl vergangene als auch aktuelle Tokens zu berücksichtigen, wodurch das rezeptive Feld der Aufmerksamkeit vergrößert und die Erforschung von langreichweitigen Abhängigkeiten ermöglicht wird. Durch die Verwendung einer rekurrenten Gating-Einheit zur kontinuierlichen Aktualisierung des Caches erzielt unser Modell signifikante Fortschritte in sechs Sprach- und Vision-Aufgaben, darunter Sprachmodellierung, maschinelle Übersetzung, ListOPs, Bildklassifizierung, Objekterkennung und Instanzsegmentierung. Darüber hinaus übertrifft unser Ansatz bisherige speicherbasierte Techniken in Aufgaben wie der Sprachmodellierung und zeigt die Fähigkeit, auf ein breiteres Anwendungsspektrum übertragen zu werden.
English
This work introduces a new Transformer model called Cached Transformer, which
uses Gated Recurrent Cached (GRC) attention to extend the self-attention
mechanism with a differentiable memory cache of tokens. GRC attention enables
attending to both past and current tokens, increasing the receptive field of
attention and allowing for exploring long-range dependencies. By utilizing a
recurrent gating unit to continuously update the cache, our model achieves
significant advancements in six language and vision tasks, including
language modeling, machine translation, ListOPs, image classification, object
detection, and instance segmentation. Furthermore, our approach surpasses
previous memory-based techniques in tasks such as language modeling and
displays the ability to be applied to a broader range of situations.