Atenção Estelar: Inferência Eficiente de LLM em Sequências Longas
Star Attention: Efficient LLM Inference over Long Sequences
November 26, 2024
Autores: Shantanu Acharya, Fei Jia, Boris Ginsburg
cs.AI
Resumo
A inferência com Modelos de Linguagem de Grande Escala (LLMs) baseados em Transformadores em sequências longas é tanto custosa quanto lenta devido à complexidade quadrática do mecanismo de autoatenção. Apresentamos a Star Attention, uma aproximação de bloco esparsa em duas fases que melhora a eficiência computacional ao dividir a atenção entre vários hosts, minimizando a sobrecarga de comunicação. Na primeira fase, o contexto é processado usando atenção local em blocos entre hosts, em paralelo. Na segunda fase, os tokens de consulta e resposta atendem a todos os tokens anteriores armazenados por meio de atenção global à sequência. A Star Attention se integra perfeitamente à maioria dos LLMs baseados em Transformadores treinados com atenção global, reduzindo os requisitos de memória e o tempo de inferência em até 11 vezes, preservando de 95 a 100% da precisão.
English
Inference with Transformer-based Large Language Models (LLMs) on long
sequences is both costly and slow due to the quadratic complexity of the
self-attention mechanism. We introduce Star Attention, a two-phase block-sparse
approximation that improves computational efficiency by sharding attention
across multiple hosts while minimizing communication overhead. In the first
phase, the context is processed using blockwise-local attention across hosts,
in parallel. In the second phase, query and response tokens attend to all prior
cached tokens through sequence-global attention. Star Attention integrates
seamlessly with most Transformer-based LLMs trained with global attention,
reducing memory requirements and inference time by up to 11x while preserving
95-100% of accuracy.Summary
AI-Generated Summary