TRAMS: Selezione della Memoria Senza Addestramento per il Modellamento del Linguaggio a Lungo Raggio

Abstract

L'architettura Transformer è fondamentale per numerosi modelli di IA, ma deve ancora affrontare sfide nella modellazione del linguaggio a lungo raggio. Sebbene siano state progettate diverse architetture Transformer specifiche per affrontare i problemi delle dipendenze a lungo raggio, i metodi esistenti come Transformer-XL sono afflitti da un'alta percentuale di memorie inefficaci. In questo studio, presentiamo una strategia plug-and-play, denominata TRAining-free Memory Selection (TRAMS), che seleziona i token che partecipano al calcolo dell'attenzione basandosi su una semplice metrica. Questa strategia ci consente di mantenere i token che hanno una probabilità elevata di ottenere un punteggio di attenzione alto con le query correnti e di ignorare gli altri. Abbiamo testato il nostro approccio sul benchmark a livello di parola (WikiText-103) e sul benchmark a livello di carattere (enwik8), e i risultati indicano un miglioramento senza la necessità di ulteriori addestramenti o l'aggiunta di parametri aggiuntivi.

English

The Transformer architecture is crucial for numerous AI models, but it still faces challenges in long-range language modeling. Though several specific transformer architectures have been designed to tackle issues of long-range dependencies, existing methods like Transformer-XL are plagued by a high percentage of ineffective memories. In this study, we present a plug-and-play strategy, known as TRAining-free Memory Selection (TRAMS), that selects tokens participating in attention calculation based on one simple metric. This strategy allows us to keep tokens that are likely to have a high attention score with the current queries and ignore the other ones. We have tested our approach on the word-level benchmark (WikiText-103) and the character-level benchmark (enwik8), and the results indicate an improvement without having additional training or adding additional parameters.

TRAMS: Selezione della Memoria Senza Addestramento per il Modellamento del Linguaggio a Lungo Raggio

TRAMS: Training-free Memory Selection for Long-range Language Modeling

Abstract

Support