TRAMS: Бесплатное обучение выбору памяти для языкового моделирования на больших дистанциях
TRAMS: Training-free Memory Selection for Long-range Language Modeling
October 24, 2023
Авторы: Haofei Yu, Cunxiang wang, Yue Zhang, Wei Bi
cs.AI
Аннотация
Архитектура Transformer играет ключевую роль во множестве моделей ИИ, однако она по-прежнему сталкивается с трудностями в задачах моделирования языка на больших дистанциях. Хотя было разработано несколько специализированных архитектур Transformer для решения проблем долгосрочных зависимостей, существующие методы, такие как Transformer-XL, страдают от высокого процента неэффективных воспоминаний. В данном исследовании мы представляем стратегию "plug-and-play", известную как TRAining-free Memory Selection (TRAMS), которая выбирает токены, участвующие в вычислении внимания, на основе одного простого критерия. Эта стратегия позволяет сохранять токены, которые с высокой вероятностью будут иметь значительный показатель внимания для текущих запросов, и игнорировать остальные. Мы протестировали наш подход на бенчмарках уровня слов (WikiText-103) и уровня символов (enwik8), и результаты демонстрируют улучшение без необходимости дополнительного обучения или добавления новых параметров.
English
The Transformer architecture is crucial for numerous AI models, but it still
faces challenges in long-range language modeling. Though several specific
transformer architectures have been designed to tackle issues of long-range
dependencies, existing methods like Transformer-XL are plagued by a high
percentage of ineffective memories. In this study, we present a plug-and-play
strategy, known as TRAining-free Memory Selection (TRAMS), that selects tokens
participating in attention calculation based on one simple metric. This
strategy allows us to keep tokens that are likely to have a high attention
score with the current queries and ignore the other ones. We have tested our
approach on the word-level benchmark (WikiText-103) and the character-level
benchmark (enwik8), and the results indicate an improvement without having
additional training or adding additional parameters.