Attention Étoilée : Inférence LLM Efficace sur de Longues Séquences
Star Attention: Efficient LLM Inference over Long Sequences
November 26, 2024
Auteurs: Shantanu Acharya, Fei Jia, Boris Ginsburg
cs.AI
Résumé
L'inférence avec les Modèles de Langage de Grande Taille (LLMs) basés sur les Transformers sur de longues séquences est à la fois coûteuse et lente en raison de la complexité quadratique du mécanisme d'auto-attention. Nous introduisons Star Attention, une approximation à blocs clairsemés en deux phases qui améliore l'efficacité computationnelle en répartissant l'attention sur plusieurs hôtes tout en minimisant les frais de communication. Dans la première phase, le contexte est traité en utilisant une attention locale par blocs à travers les hôtes, en parallèle. Dans la deuxième phase, les jetons de requête et de réponse s'attendent à tous les jetons précédents mis en cache grâce à une attention globale à la séquence. Star Attention s'intègre parfaitement avec la plupart des LLMs basés sur les Transformers entraînés avec une attention globale, réduisant les besoins en mémoire et le temps d'inférence jusqu'à 11 fois tout en préservant 95 à 100 % de la précision.
English
Inference with Transformer-based Large Language Models (LLMs) on long
sequences is both costly and slow due to the quadratic complexity of the
self-attention mechanism. We introduce Star Attention, a two-phase block-sparse
approximation that improves computational efficiency by sharding attention
across multiple hosts while minimizing communication overhead. In the first
phase, the context is processed using blockwise-local attention across hosts,
in parallel. In the second phase, query and response tokens attend to all prior
cached tokens through sequence-global attention. Star Attention integrates
seamlessly with most Transformer-based LLMs trained with global attention,
reducing memory requirements and inference time by up to 11x while preserving
95-100% of accuracy.Summary
AI-Generated Summary