Внимание звезды: эффективный вывод LLM на длинных последовательностях
Star Attention: Efficient LLM Inference over Long Sequences
November 26, 2024
Авторы: Shantanu Acharya, Fei Jia, Boris Ginsburg
cs.AI
Аннотация
Выполнение вывода с использованием моделей языка на основе трансформера (LLM) на длинных последовательностях является как затратным, так и медленным из-за квадратичной сложности механизма самовнимания. Мы представляем Star Attention, двухфазное блочно-разреженное приближение, которое повышает вычислительную эффективность путем разделения внимания между несколькими узлами, минимизируя при этом накладные расходы на коммуникацию. На первой фазе контекст обрабатывается с использованием блочного локального внимания между узлами параллельно. На второй фазе токены запроса и ответа обращаются ко всем предыдущим закешированным токенам через глобальное внимание по последовательности. Star Attention интегрируется плавно с большинством моделей LLM на основе трансформера, обученных с глобальным вниманием, снижая требования к памяти и время вывода до 11 раз, сохраняя при этом от 95 до 100% точности.
English
Inference with Transformer-based Large Language Models (LLMs) on long
sequences is both costly and slow due to the quadratic complexity of the
self-attention mechanism. We introduce Star Attention, a two-phase block-sparse
approximation that improves computational efficiency by sharding attention
across multiple hosts while minimizing communication overhead. In the first
phase, the context is processed using blockwise-local attention across hosts,
in parallel. In the second phase, query and response tokens attend to all prior
cached tokens through sequence-global attention. Star Attention integrates
seamlessly with most Transformer-based LLMs trained with global attention,
reducing memory requirements and inference time by up to 11x while preserving
95-100% of accuracy.Summary
AI-Generated Summary