Attenzione a fessura controllata per una modellazione efficiente delle sequenze in tempo lineare.
Gated Slot Attention for Efficient Linear-Time Sequence Modeling
September 11, 2024
Autori: Yu Zhang, Songlin Yang, Ruijie Zhu, Yue Zhang, Leyang Cui, Yiqiao Wang, Bolun Wang, Freda Shi, Bailin Wang, Wei Bi, Peng Zhou, Guohong Fu
cs.AI
Abstract
I Transformer lineari con attenzione e le loro varianti con gate, rinomati per consentire l'addestramento parallelo e un'efficace inferenza ricorrente, tuttavia presentano ancora limiti nelle attività intensive di richiamo rispetto ai Transformer tradizionali e richiedono risorse significative per l'addestramento da zero. Questo articolo introduce l'Attenzione a Slot con Gate (GSA), che potenzia l'Attenzione con Controllo della Memoria Limitata (ABC) incorporando un meccanismo di gating ispirato all'Attenzione Lineare con Gate (GLA). Fondamentalmente, GSA consiste in un GLA a due strati collegati tramite softmax, utilizzando una lettura della memoria consapevole del contesto e un'oblio adattivo per migliorare la capacità di memoria mantenendo un formato di stato ricorrente compatto. Questo design migliora notevolmente l'efficienza sia dell'addestramento che dell'inferenza attraverso l'algoritmo di addestramento efficiente in termini di hardware di GLA e la riduzione delle dimensioni dello stato. Inoltre, mantenere l'operazione softmax è particolarmente vantaggioso nei contesti di "ottimizzazione dei Transformer preaddestrati per le RNN" (T2R), riducendo la necessità di un ampio addestramento da zero. Esperimenti approfonditi confermano le prestazioni superiori di GSA in scenari che richiedono il richiamo in contesto e nei contesti T2R.
English
Linear attention Transformers and their gated variants, celebrated for
enabling parallel training and efficient recurrent inference, still fall short
in recall-intensive tasks compared to traditional Transformers and demand
significant resources for training from scratch. This paper introduces Gated
Slot Attention (GSA), which enhances Attention with Bounded-memory-Control
(ABC) by incorporating a gating mechanism inspired by Gated Linear Attention
(GLA). Essentially, GSA comprises a two-layer GLA linked via softmax, utilizing
context-aware memory reading and adaptive forgetting to improve memory capacity
while maintaining compact recurrent state size. This design greatly enhances
both training and inference efficiency through GLA's hardware-efficient
training algorithm and reduced state size. Additionally, retaining the softmax
operation is particularly beneficial in "finetuning pretrained Transformers to
RNNs" (T2R) settings, reducing the need for extensive training from scratch.
Extensive experiments confirm GSA's superior performance in scenarios requiring
in-context recall and in T2R settings.Summary
AI-Generated Summary