TRAMS: Trainingsfreie Speicherselektion für die Sprachmodellierung über lange Distanzen

papers.abstract

Die Transformer-Architektur ist entscheidend für zahlreiche KI-Modelle, steht jedoch weiterhin vor Herausforderungen bei der langstreckigen Sprachmodellierung. Obwohl mehrere spezifische Transformer-Architekturen entwickelt wurden, um Probleme mit langstreckigen Abhängigkeiten zu bewältigen, leiden bestehende Methoden wie Transformer-XL unter einem hohen Anteil ineffektiver Speicher. In dieser Studie präsentieren wir eine Plug-and-Play-Strategie, bekannt als TRAining-free Memory Selection (TRAMS), die Token für die Aufmerksamkeitsberechnung basierend auf einem einfachen Metrik auswählt. Diese Strategie ermöglicht es uns, Token beizubehalten, die voraussichtlich eine hohe Aufmerksamkeitsbewertung mit den aktuellen Anfragen aufweisen, und die anderen zu ignorieren. Wir haben unseren Ansatz auf dem Wortebenen-Benchmark (WikiText-103) und dem Zeichenebenen-Benchmark (enwik8) getestet, und die Ergebnisse zeigen eine Verbesserung, ohne zusätzliches Training oder zusätzliche Parameter hinzuzufügen.

English

The Transformer architecture is crucial for numerous AI models, but it still faces challenges in long-range language modeling. Though several specific transformer architectures have been designed to tackle issues of long-range dependencies, existing methods like Transformer-XL are plagued by a high percentage of ineffective memories. In this study, we present a plug-and-play strategy, known as TRAining-free Memory Selection (TRAMS), that selects tokens participating in attention calculation based on one simple metric. This strategy allows us to keep tokens that are likely to have a high attention score with the current queries and ignore the other ones. We have tested our approach on the word-level benchmark (WikiText-103) and the character-level benchmark (enwik8), and the results indicate an improvement without having additional training or adding additional parameters.

TRAMS: Trainingsfreie Speicherselektion für die Sprachmodellierung über lange Distanzen

TRAMS: Training-free Memory Selection for Long-range Language Modeling

papers.abstract

Support