TRAMS: Seleção de Memória sem Treinamento para Modelagem de Linguagem de Longo Alcance
TRAMS: Training-free Memory Selection for Long-range Language Modeling
October 24, 2023
Autores: Haofei Yu, Cunxiang wang, Yue Zhang, Wei Bi
cs.AI
Resumo
A arquitetura Transformer é crucial para diversos modelos de IA, mas ainda enfrenta desafios na modelagem de linguagem de longo alcance. Embora várias arquiteturas específicas de Transformer tenham sido projetadas para lidar com problemas de dependências de longo alcance, métodos existentes como o Transformer-XL são prejudicados por uma alta porcentagem de memórias ineficazes. Neste estudo, apresentamos uma estratégia plug-and-play, conhecida como Seleção de Memória sem Treinamento (TRAMS), que seleciona os tokens que participam do cálculo de atenção com base em uma métrica simples. Essa estratégia nos permite manter os tokens que provavelmente terão uma pontuação de atenção alta com as consultas atuais e ignorar os demais. Testamos nossa abordagem no benchmark de nível de palavra (WikiText-103) e no benchmark de nível de caractere (enwik8), e os resultados indicam uma melhoria sem a necessidade de treinamento adicional ou adição de parâmetros extras.
English
The Transformer architecture is crucial for numerous AI models, but it still
faces challenges in long-range language modeling. Though several specific
transformer architectures have been designed to tackle issues of long-range
dependencies, existing methods like Transformer-XL are plagued by a high
percentage of ineffective memories. In this study, we present a plug-and-play
strategy, known as TRAining-free Memory Selection (TRAMS), that selects tokens
participating in attention calculation based on one simple metric. This
strategy allows us to keep tokens that are likely to have a high attention
score with the current queries and ignore the other ones. We have tested our
approach on the word-level benchmark (WikiText-103) and the character-level
benchmark (enwik8), and the results indicate an improvement without having
additional training or adding additional parameters.