Attention Étoilée : Inférence LLM Efficace sur de Longues Séquences

papers.abstract

L'inférence avec les Modèles de Langage de Grande Taille (LLMs) basés sur les Transformers sur de longues séquences est à la fois coûteuse et lente en raison de la complexité quadratique du mécanisme d'auto-attention. Nous introduisons Star Attention, une approximation à blocs clairsemés en deux phases qui améliore l'efficacité computationnelle en répartissant l'attention sur plusieurs hôtes tout en minimisant les frais de communication. Dans la première phase, le contexte est traité en utilisant une attention locale par blocs à travers les hôtes, en parallèle. Dans la deuxième phase, les jetons de requête et de réponse s'attendent à tous les jetons précédents mis en cache grâce à une attention globale à la séquence. Star Attention s'intègre parfaitement avec la plupart des LLMs basés sur les Transformers entraînés avec une attention globale, réduisant les besoins en mémoire et le temps d'inférence jusqu'à 11 fois tout en préservant 95 à 100 % de la précision.

English

Inference with Transformer-based Large Language Models (LLMs) on long sequences is both costly and slow due to the quadratic complexity of the self-attention mechanism. We introduce Star Attention, a two-phase block-sparse approximation that improves computational efficiency by sharding attention across multiple hosts while minimizing communication overhead. In the first phase, the context is processed using blockwise-local attention across hosts, in parallel. In the second phase, query and response tokens attend to all prior cached tokens through sequence-global attention. Star Attention integrates seamlessly with most Transformer-based LLMs trained with global attention, reducing memory requirements and inference time by up to 11x while preserving 95-100% of accuracy.

Attention Étoilée : Inférence LLM Efficace sur de Longues Séquences

Star Attention: Efficient LLM Inference over Long Sequences

papers.abstract

Support