Atenção Estelar: Inferência Eficiente de LLM em Sequências Longas

Resumo

A inferência com Modelos de Linguagem de Grande Escala (LLMs) baseados em Transformadores em sequências longas é tanto custosa quanto lenta devido à complexidade quadrática do mecanismo de autoatenção. Apresentamos a Star Attention, uma aproximação de bloco esparsa em duas fases que melhora a eficiência computacional ao dividir a atenção entre vários hosts, minimizando a sobrecarga de comunicação. Na primeira fase, o contexto é processado usando atenção local em blocos entre hosts, em paralelo. Na segunda fase, os tokens de consulta e resposta atendem a todos os tokens anteriores armazenados por meio de atenção global à sequência. A Star Attention se integra perfeitamente à maioria dos LLMs baseados em Transformadores treinados com atenção global, reduzindo os requisitos de memória e o tempo de inferência em até 11 vezes, preservando de 95 a 100% da precisão.

English

Inference with Transformer-based Large Language Models (LLMs) on long sequences is both costly and slow due to the quadratic complexity of the self-attention mechanism. We introduce Star Attention, a two-phase block-sparse approximation that improves computational efficiency by sharding attention across multiple hosts while minimizing communication overhead. In the first phase, the context is processed using blockwise-local attention across hosts, in parallel. In the second phase, query and response tokens attend to all prior cached tokens through sequence-global attention. Star Attention integrates seamlessly with most Transformer-based LLMs trained with global attention, reducing memory requirements and inference time by up to 11x while preserving 95-100% of accuracy.

Atenção Estelar: Inferência Eficiente de LLM em Sequências Longas

Star Attention: Efficient LLM Inference over Long Sequences

Resumo

Support