Внимание звезды: эффективный вывод LLM на длинных последовательностях

Аннотация

Выполнение вывода с использованием моделей языка на основе трансформера (LLM) на длинных последовательностях является как затратным, так и медленным из-за квадратичной сложности механизма самовнимания. Мы представляем Star Attention, двухфазное блочно-разреженное приближение, которое повышает вычислительную эффективность путем разделения внимания между несколькими узлами, минимизируя при этом накладные расходы на коммуникацию. На первой фазе контекст обрабатывается с использованием блочного локального внимания между узлами параллельно. На второй фазе токены запроса и ответа обращаются ко всем предыдущим закешированным токенам через глобальное внимание по последовательности. Star Attention интегрируется плавно с большинством моделей LLM на основе трансформера, обученных с глобальным вниманием, снижая требования к памяти и время вывода до 11 раз, сохраняя при этом от 95 до 100% точности.

English

Inference with Transformer-based Large Language Models (LLMs) on long sequences is both costly and slow due to the quadratic complexity of the self-attention mechanism. We introduce Star Attention, a two-phase block-sparse approximation that improves computational efficiency by sharding attention across multiple hosts while minimizing communication overhead. In the first phase, the context is processed using blockwise-local attention across hosts, in parallel. In the second phase, query and response tokens attend to all prior cached tokens through sequence-global attention. Star Attention integrates seamlessly with most Transformer-based LLMs trained with global attention, reducing memory requirements and inference time by up to 11x while preserving 95-100% of accuracy.

Внимание звезды: эффективный вывод LLM на длинных последовательностях

Star Attention: Efficient LLM Inference over Long Sequences

Аннотация

Support