TRAMS : Sélection de mémoire sans entraînement pour la modélisation du langage à longue portée
TRAMS: Training-free Memory Selection for Long-range Language Modeling
October 24, 2023
Auteurs: Haofei Yu, Cunxiang wang, Yue Zhang, Wei Bi
cs.AI
Résumé
L'architecture Transformer est cruciale pour de nombreux modèles d'IA, mais elle rencontre encore des défis dans la modélisation linguistique à long terme. Bien que plusieurs architectures Transformer spécifiques aient été conçues pour résoudre les problèmes de dépendances à long terme, les méthodes existantes comme Transformer-XL sont affectées par un pourcentage élevé de mémoires inefficaces. Dans cette étude, nous présentons une stratégie plug-and-play, appelée TRAining-free Memory Selection (TRAMS), qui sélectionne les tokens participant au calcul d'attention en se basant sur une métrique simple. Cette stratégie nous permet de conserver les tokens susceptibles d'avoir un score d'attention élevé avec les requêtes actuelles et d'ignorer les autres. Nous avons testé notre approche sur le benchmark au niveau des mots (WikiText-103) et au niveau des caractères (enwik8), et les résultats montrent une amélioration sans nécessiter d'entraînement supplémentaire ni ajouter de paramètres supplémentaires.
English
The Transformer architecture is crucial for numerous AI models, but it still
faces challenges in long-range language modeling. Though several specific
transformer architectures have been designed to tackle issues of long-range
dependencies, existing methods like Transformer-XL are plagued by a high
percentage of ineffective memories. In this study, we present a plug-and-play
strategy, known as TRAining-free Memory Selection (TRAMS), that selects tokens
participating in attention calculation based on one simple metric. This
strategy allows us to keep tokens that are likely to have a high attention
score with the current queries and ignore the other ones. We have tested our
approach on the word-level benchmark (WikiText-103) and the character-level
benchmark (enwik8), and the results indicate an improvement without having
additional training or adding additional parameters.