L'attenzione selettiva migliora il Transformer.
Selective Attention Improves Transformer
October 3, 2024
Autori: Yaniv Leviathan, Matan Kalman, Yossi Matias
cs.AI
Abstract
Gli elementi non necessari nel contesto dell'attenzione degradano le prestazioni. Introduciamo l'Attenzione Selettiva, una semplice modifica priva di parametri al meccanismo standard di attenzione che riduce l'attenzione agli elementi non necessari. L'Attenzione Selettiva migliora le prestazioni del language modeling in una varietà di dimensioni di modello e lunghezze del contesto. Ad esempio, una serie di trasformatori addestrati con l'obiettivo del language modeling su C4 con attenzione selettiva si comportano in modo equivalente ai trasformatori standard con circa il doppio di testate e parametri nei loro moduli di attenzione. L'Attenzione Selettiva consente anche di ridurre le dimensioni del buffer del contesto dell'attenzione, portando a riduzioni significative nei requisiti di memoria e calcolo durante l'inferenza. Ad esempio, i trasformatori con 100M di parametri addestrati su C4 con dimensioni di contesto di 512, 1.024 e 2.048 richiedono rispettivamente 16X, 25X e 47X meno memoria per il loro modulo di attenzione quando dotati di attenzione selettiva, rispetto a quelli senza attenzione selettiva, con la stessa perplessità di convalida.
English
Unneeded elements in the attention's context degrade performance. We
introduce Selective Attention, a simple parameter-free change to the standard
attention mechanism which reduces attention to unneeded elements. Selective
attention improves language modeling performance in a variety of model sizes
and context lengths. For example, a range of transformers trained with the
language modeling objective on C4 with selective attention perform equivalently
to standard transformers with ~2X more heads and parameters in their attention
modules. Selective attention also allows decreasing the size of the attention's
context buffer, leading to meaningful reductions in the memory and compute
requirements during inference. For example, transformers with 100M parameters
trained on C4 with context sizes of 512, 1,024, and 2,048 need 16X, 25X, and
47X less memory for their attention module, respectively, when equipped with
selective attention, as those without selective attention, with the same
validation perplexity.