UniPrefill: Universelle Beschleunigung der Prefill-Phase für lange Kontexte durch blockweise dynamische Versparsungsung

Zusammenfassung

Da sich große Sprachmodelle (Large Language Models, LLMs) rasant weiterentwickeln, werden sie zunehmend leistungsfähiger, während sie gleichzeitig immer längere Kontextlängen erfordern. Um die Inferenzeffizienz bei der Verarbeitung langer Kontexte zu verbessern, wurden in jüngster Zeit mehrere neuartige Hybridarchitekturen mit geringer Komplexität vorgeschlagen, die den Rechenaufwand bei der Inferenz langer Kontexte wirksam verringern. Die bestehende Forschung zur Beschleunigung der Prefill-Phase langer Kontexte konzentriert sich jedoch weiterhin hauptsächlich auf Mechanismen der sparse Attention, die ihre maximale Beschleunigung nur bei Full-Attention-Modellen erreichen. Bei der Übertragung auf neuartige Architekturen – wie lineare/Full-Attention-Hybride oder Sliding-Window/Full-Attention-Hybride – erleiden diese Prefill-Beschleunigungsansätze erhebliche Leistungseinbußen. Darüber hinaus sind solche Methoden im Allgemeinen nicht mit kontinuierlichem Batching kompatibel, was ihre Integration in moderne Inferenz-Engines wie vLLM erschwert. Zu diesem Zweck schlagen wir UniPrefill vor, ein Prefill-Beschleunigungsframework, das auf praktisch jede Modellarchitektur anwendbar ist und die Berechnung des Modells direkt auf Token-Ebene beschleunigt. Wir implementieren UniPrefill weiterhin als Operator für kontinuierliches Batching und erweitern die Scheduling-Strategie von vLLM, um die native Unterstützung von Prefill-Decode-Co-Verarbeitung und Tensor Parallelism für UniPrefill zu ermöglichen, wodurch eine nahtlose Integration in vLLM erreicht wird. UniPrefill erzielt eine bis zu 2,1-fache Beschleunigung der Time-To-First-Token (TTFT), wobei die Beschleunigung mit zunehmender Anzahl gleichzeitiger Anfragen immer deutlicher wird.

English

As large language models (LLMs) continue to advance rapidly, they are becoming increasingly capable while simultaneously demanding ever-longer context lengths. To improve the inference efficiency of long-context processing, several novel low-complexity hybrid architectures have recently been proposed, effectively alleviating the computational burden of long-context inference. However, existing research on long-context prefill acceleration remains predominantly focused on sparse attention mechanisms, which achieve their maximum speedup only on full-attention models. When transferred to emerging architectures--such as linear/full attention hybrids or sliding window/full attention hybrids--these prefill acceleration approaches suffer significant performance degradation. Furthermore, such methods are generally incompatible with continuous batching, making them difficult to integrate into modern inference engines such as vLLM. To this end, we propose UniPrefill, a prefill acceleration framework applicable to virtually any model architecture, which directly accelerates the model's computation at the token level. We further implement UniPrefill as a continuous batching operator and extend vLLM's scheduling strategy to natively support prefill-decode co-processing and tensor parallel for UniPrefill, enabling its seamless integration into vLLM. UniPrefill achieves up to 2.1x speedup in Time-To-First-Token (TTFT), with the acceleration becoming increasingly pronounced as the number of concurrent requests grows.

UniPrefill: Universelle Beschleunigung der Prefill-Phase für lange Kontexte durch blockweise dynamische Versparsungsung

UniPrefill: Universal Long-Context Prefill Acceleration via Block-wise Dynamic Sparsification

Zusammenfassung

Support