UniPrefill: Универсальное ускорение префилла длинных контекстов с помощью блочного динамического разрежения

Аннотация

По мере стремительного развития больших языковых моделей (LLM) их возможности возрастают, одновременно требуя всё большей длины контекста. Для повышения эффективности инференса при обработке длинных контекстов в последнее время было предложено несколько новых гибридных архитектур с низкой сложностью, что позволяет эффективно снизить вычислительную нагрузку при инференсе длинных контекстов. Однако существующие исследования по ускорению предзаполнения (prefill) длинных контекстов в основном сосредоточены на механизмах разреженного внимания, которые достигают максимального ускорения только на моделях с полным вниманием. При переносе на новые архитектуры — такие как гибриды линейного/полного внимания или гибриды скользящего окна/полного внимания — эти методы ускорения предзаполнения демонстрируют значительное снижение производительности. Кроме того, такие методы, как правило, несовместимы с непрерывной пакетной обработкой (continuous batching), что затрудняет их интеграцию в современные механизмы инференса, такие как vLLM. Для решения этой проблемы мы предлагаем UniPrefill — фреймворк ускорения предзаполнения, применимый практически к любой архитектуре модели, который напрямую ускоряет вычисления модели на уровне токенов. Мы также реализуем UniPrefill как оператор непрерывной пакетной обработки и расширяем стратегию планирования vLLM для нативной поддержки совместной обработки предзаполнения и декодирования, а также тензорного параллелизма для UniPrefill, что обеспечивает его бесшовную интеграцию в vLLM. UniPrefill достигает ускорения времени до первого токена (TTFT) до 2,1 раза, причём ускорение становится более выраженным по мере увеличения числа одновременных запросов.

English

As large language models (LLMs) continue to advance rapidly, they are becoming increasingly capable while simultaneously demanding ever-longer context lengths. To improve the inference efficiency of long-context processing, several novel low-complexity hybrid architectures have recently been proposed, effectively alleviating the computational burden of long-context inference. However, existing research on long-context prefill acceleration remains predominantly focused on sparse attention mechanisms, which achieve their maximum speedup only on full-attention models. When transferred to emerging architectures--such as linear/full attention hybrids or sliding window/full attention hybrids--these prefill acceleration approaches suffer significant performance degradation. Furthermore, such methods are generally incompatible with continuous batching, making them difficult to integrate into modern inference engines such as vLLM. To this end, we propose UniPrefill, a prefill acceleration framework applicable to virtually any model architecture, which directly accelerates the model's computation at the token level. We further implement UniPrefill as a continuous batching operator and extend vLLM's scheduling strategy to natively support prefill-decode co-processing and tensor parallel for UniPrefill, enabling its seamless integration into vLLM. UniPrefill achieves up to 2.1x speedup in Time-To-First-Token (TTFT), with the acceleration becoming increasingly pronounced as the number of concurrent requests grows.

UniPrefill: Универсальное ускорение префилла длинных контекстов с помощью блочного динамического разрежения

UniPrefill: Universal Long-Context Prefill Acceleration via Block-wise Dynamic Sparsification

Аннотация

Support