ChatPaper.aiChatPaper

L'attenzione selettiva migliora il Transformer.

Selective Attention Improves Transformer

October 3, 2024
Autori: Yaniv Leviathan, Matan Kalman, Yossi Matias
cs.AI

Abstract

Gli elementi non necessari nel contesto dell'attenzione degradano le prestazioni. Introduciamo l'Attenzione Selettiva, una semplice modifica priva di parametri al meccanismo standard di attenzione che riduce l'attenzione agli elementi non necessari. L'Attenzione Selettiva migliora le prestazioni del language modeling in una varietà di dimensioni di modello e lunghezze del contesto. Ad esempio, una serie di trasformatori addestrati con l'obiettivo del language modeling su C4 con attenzione selettiva si comportano in modo equivalente ai trasformatori standard con circa il doppio di testate e parametri nei loro moduli di attenzione. L'Attenzione Selettiva consente anche di ridurre le dimensioni del buffer del contesto dell'attenzione, portando a riduzioni significative nei requisiti di memoria e calcolo durante l'inferenza. Ad esempio, i trasformatori con 100M di parametri addestrati su C4 con dimensioni di contesto di 512, 1.024 e 2.048 richiedono rispettivamente 16X, 25X e 47X meno memoria per il loro modulo di attenzione quando dotati di attenzione selettiva, rispetto a quelli senza attenzione selettiva, con la stessa perplessità di convalida.
English
Unneeded elements in the attention's context degrade performance. We introduce Selective Attention, a simple parameter-free change to the standard attention mechanism which reduces attention to unneeded elements. Selective attention improves language modeling performance in a variety of model sizes and context lengths. For example, a range of transformers trained with the language modeling objective on C4 with selective attention perform equivalently to standard transformers with ~2X more heads and parameters in their attention modules. Selective attention also allows decreasing the size of the attention's context buffer, leading to meaningful reductions in the memory and compute requirements during inference. For example, transformers with 100M parameters trained on C4 with context sizes of 512, 1,024, and 2,048 need 16X, 25X, and 47X less memory for their attention module, respectively, when equipped with selective attention, as those without selective attention, with the same validation perplexity.
PDF242November 16, 2024