TRAMS: Selección de Memoria sin Entrenamiento para Modelado de Lenguaje de Largo Alcance
TRAMS: Training-free Memory Selection for Long-range Language Modeling
October 24, 2023
Autores: Haofei Yu, Cunxiang wang, Yue Zhang, Wei Bi
cs.AI
Resumen
La arquitectura Transformer es crucial para numerosos modelos de IA, pero aún enfrenta desafíos en el modelado de lenguaje de largo alcance. Aunque se han diseñado varias arquitecturas Transformer específicas para abordar los problemas de dependencias de largo alcance, métodos existentes como Transformer-XL están afectados por un alto porcentaje de memorias ineficaces. En este estudio, presentamos una estrategia plug-and-play, conocida como Selección de Memoria sin Entrenamiento (TRAMS), que selecciona los tokens que participan en el cálculo de atención basándose en una métrica simple. Esta estrategia nos permite mantener los tokens que probablemente tengan una puntuación de atención alta con las consultas actuales e ignorar los demás. Hemos probado nuestro enfoque en el benchmark de nivel de palabra (WikiText-103) y el benchmark de nivel de carácter (enwik8), y los resultados indican una mejora sin necesidad de entrenamiento adicional ni la adición de parámetros extra.
English
The Transformer architecture is crucial for numerous AI models, but it still
faces challenges in long-range language modeling. Though several specific
transformer architectures have been designed to tackle issues of long-range
dependencies, existing methods like Transformer-XL are plagued by a high
percentage of ineffective memories. In this study, we present a plug-and-play
strategy, known as TRAining-free Memory Selection (TRAMS), that selects tokens
participating in attention calculation based on one simple metric. This
strategy allows us to keep tokens that are likely to have a high attention
score with the current queries and ignore the other ones. We have tested our
approach on the word-level benchmark (WikiText-103) and the character-level
benchmark (enwik8), and the results indicate an improvement without having
additional training or adding additional parameters.