TRAMS: Trainingsfreie Speicherselektion für die Sprachmodellierung über lange Distanzen
TRAMS: Training-free Memory Selection for Long-range Language Modeling
October 24, 2023
Autoren: Haofei Yu, Cunxiang wang, Yue Zhang, Wei Bi
cs.AI
Zusammenfassung
Die Transformer-Architektur ist entscheidend für zahlreiche KI-Modelle, steht jedoch weiterhin vor Herausforderungen bei der langstreckigen Sprachmodellierung. Obwohl mehrere spezifische Transformer-Architekturen entwickelt wurden, um Probleme mit langstreckigen Abhängigkeiten zu bewältigen, leiden bestehende Methoden wie Transformer-XL unter einem hohen Anteil ineffektiver Speicher. In dieser Studie präsentieren wir eine Plug-and-Play-Strategie, bekannt als TRAining-free Memory Selection (TRAMS), die Token für die Aufmerksamkeitsberechnung basierend auf einem einfachen Metrik auswählt. Diese Strategie ermöglicht es uns, Token beizubehalten, die voraussichtlich eine hohe Aufmerksamkeitsbewertung mit den aktuellen Anfragen aufweisen, und die anderen zu ignorieren. Wir haben unseren Ansatz auf dem Wortebenen-Benchmark (WikiText-103) und dem Zeichenebenen-Benchmark (enwik8) getestet, und die Ergebnisse zeigen eine Verbesserung, ohne zusätzliches Training oder zusätzliche Parameter hinzuzufügen.
English
The Transformer architecture is crucial for numerous AI models, but it still
faces challenges in long-range language modeling. Though several specific
transformer architectures have been designed to tackle issues of long-range
dependencies, existing methods like Transformer-XL are plagued by a high
percentage of ineffective memories. In this study, we present a plug-and-play
strategy, known as TRAining-free Memory Selection (TRAMS), that selects tokens
participating in attention calculation based on one simple metric. This
strategy allows us to keep tokens that are likely to have a high attention
score with the current queries and ignore the other ones. We have tested our
approach on the word-level benchmark (WikiText-103) and the character-level
benchmark (enwik8), and the results indicate an improvement without having
additional training or adding additional parameters.