O Agrupamento Diagonal Desbloqueia o Paralelismo em Transformadores de Memória Recorrente para Contextos Longos

Resumo

Os modelos Transformer enfrentam dificuldades na inferência de contextos longos devido à sua complexidade quadrática de tempo e linear de memória. Os Transformers com Memória Recorrente (RMTs) oferecem uma solução ao reduzir o custo assintótico para tempo linear e uso constante de memória. No entanto, seu mecanismo de atualização de memória resulta em execução sequencial, causando um gargalo de desempenho. Apresentamos o *Diagonal Batching*, um esquema de agendamento que desbloqueia o paralelismo entre segmentos em RMTs enquanto preserva a recorrência exata. Essa abordagem elimina a restrição sequencial, permitindo inferência eficiente em GPUs mesmo para entradas únicas de contexto longo, sem técnicas complexas de *batching* e *pipelining*. Como a técnica é puramente uma reordenação de computação em tempo de execução, os modelos RMT existentes podem adotá-la sem necessidade de retreinamento. Aplicado a um modelo LLaMA-1B ARMT, o *Diagonal Batching* proporciona um ganho de velocidade de 3,3x em relação ao LLaMA-1B com atenção completa padrão e 1,8x em relação à implementação sequencial de RMT em sequências de 131.072 *tokens*. Ao remover o gargalo sequencial, o *Diagonal Batching* reduz o custo e a latência de inferência, fortalecendo os RMTs como uma solução prática para aplicações do mundo real com contextos longos.

English

Transformer models struggle with long-context inference due to their quadratic time and linear memory complexity. Recurrent Memory Transformers (RMTs) offer a solution by reducing the asymptotic cost to linear time and constant memory usage. However, their memory update mechanism leads to sequential execution, causing a performance bottleneck. We introduce Diagonal Batching, a scheduling scheme that unlocks parallelism across segments in RMTs while preserving exact recurrence. This approach eliminates the sequential constraint, enabling efficient GPU inference even for single long-context inputs without complex batching and pipelining techniques. Because the technique is purely a run-time computation reordering, existing RMT models adopt it with no retraining. Applied to a LLaMA-1B ARMT model, Diagonal Batching yields a 3.3x speedup over standard full-attention LLaMA-1B and a 1.8x speedup over the sequential RMT implementation on 131,072-token sequences. By removing sequential bottleneck, Diagonal Batching reduces inference cost and latency, thereby strengthening RMTs as a practical solution for real-world, long-context applications.

O Agrupamento Diagonal Desbloqueia o Paralelismo em Transformadores de Memória Recorrente para Contextos Longos

Diagonal Batching Unlocks Parallelism in Recurrent Memory Transformers for Long Contexts

Resumo

Support