ChatPaper.aiChatPaper

Atención Estelar: Inferencia Eficiente de LLM sobre Secuencias Largas

Star Attention: Efficient LLM Inference over Long Sequences

November 26, 2024
Autores: Shantanu Acharya, Fei Jia, Boris Ginsburg
cs.AI

Resumen

La inferencia con Modelos de Lenguaje Grandes (LLMs) basados en Transformadores en secuencias largas es costosa y lenta debido a la complejidad cuadrática del mecanismo de auto-atención. Introducimos Star Attention, una aproximación dispersa en bloques de dos fases que mejora la eficiencia computacional al dividir la atención entre múltiples nodos mientras se minimiza la sobrecarga de comunicación. En la primera fase, el contexto se procesa utilizando atención local en bloques entre nodos, en paralelo. En la segunda fase, los tokens de consulta y respuesta atienden a todos los tokens previamente almacenados a través de una atención global a la secuencia. Star Attention se integra perfectamente con la mayoría de los LLMs basados en Transformadores entrenados con atención global, reduciendo los requisitos de memoria y el tiempo de inferencia hasta en 11 veces mientras se preserva el 95-100% de precisión.
English
Inference with Transformer-based Large Language Models (LLMs) on long sequences is both costly and slow due to the quadratic complexity of the self-attention mechanism. We introduce Star Attention, a two-phase block-sparse approximation that improves computational efficiency by sharding attention across multiple hosts while minimizing communication overhead. In the first phase, the context is processed using blockwise-local attention across hosts, in parallel. In the second phase, query and response tokens attend to all prior cached tokens through sequence-global attention. Star Attention integrates seamlessly with most Transformer-based LLMs trained with global attention, reducing memory requirements and inference time by up to 11x while preserving 95-100% of accuracy.

Summary

AI-Generated Summary

PDF382November 27, 2024