TRAMS: Trainingsvrije geheugenselectie voor taalmodellering op lange afstand
TRAMS: Training-free Memory Selection for Long-range Language Modeling
October 24, 2023
Auteurs: Haofei Yu, Cunxiang wang, Yue Zhang, Wei Bi
cs.AI
Samenvatting
De Transformer-architectuur is cruciaal voor talloze AI-modellen, maar kampt nog steeds met uitdagingen op het gebied van taalmodellering over lange afstanden. Hoewel verschillende specifieke transformer-architecturen zijn ontworpen om problemen met langeafstandsafhankelijkheden aan te pakken, worden bestaande methoden zoals Transformer-XL geplaagd door een hoog percentage ineffectieve herinneringen. In deze studie presenteren we een plug-and-play-strategie, genaamd TRAining-free Memory Selection (TRAMS), die tokens selecteert die deelnemen aan de aandachtberekening op basis van een eenvoudige metriek. Deze strategie stelt ons in staat om tokens te behouden die waarschijnlijk een hoge attentiescore hebben met de huidige queries en de andere tokens te negeren. We hebben onze aanpak getest op de woordniveau-benchmark (WikiText-103) en de karakterniveau-benchmark (enwik8), en de resultaten tonen een verbetering aan zonder extra training of het toevoegen van extra parameters.
English
The Transformer architecture is crucial for numerous AI models, but it still
faces challenges in long-range language modeling. Though several specific
transformer architectures have been designed to tackle issues of long-range
dependencies, existing methods like Transformer-XL are plagued by a high
percentage of ineffective memories. In this study, we present a plug-and-play
strategy, known as TRAining-free Memory Selection (TRAMS), that selects tokens
participating in attention calculation based on one simple metric. This
strategy allows us to keep tokens that are likely to have a high attention
score with the current queries and ignore the other ones. We have tested our
approach on the word-level benchmark (WikiText-103) and the character-level
benchmark (enwik8), and the results indicate an improvement without having
additional training or adding additional parameters.