UniPrefill: Universele Lange-Context Prefill Versnelling via Bloksgewijze Dynamische Sparificatie

Samenvatting

Naarmate grote taalmodellen (LLM's) zich snel blijven ontwikkelen, worden ze steeds capabeler terwijl ze tegelijkertijd steeds langere contextlengtes vereisen. Om de inferentie-efficiëntie van langere contextverwerking te verbeteren, zijn er recentelijk verschillende nieuwe hybride architecturen met lage complexiteit voorgesteld die de rekenlast van inferentie met lange context effectief verlichten. Echter, bestaand onderzoek naar prefill-versnelling voor lange context blijft hoofdzakelijk gericht op sparse aandachtsmechanismen, die hun maximale snelheidswinst alleen behalen op modellen met volledige aandacht. Wanneer deze prefill-versnellingsmethoden worden overgebracht naar opkomende architecturen – zoals hybride lineaire/volledige aandacht of hybride schuifraam/volledige aandacht – lijden ze aanzienlijke prestatievermindering. Bovendien zijn dergelijke methoden over het algemeen onverenigbaar met continue batchverwerking, waardoor ze moeilijk te integreren zijn in moderne inferentie-engines zoals vLLM. Om dit aan te pakken stellen wij UniPrefill voor, een prefill-versnellingsraamwerk dat toepasbaar is op vrijwel elke modelarchitectuur en dat de berekening van het model direct op tokenniveau versnelt. Verder implementeren wij UniPrefill als een operator voor continue batchverwerking en breiden wij de planningsstrategie van vLLM uit om native ondersteuning te bieden voor prefill-decode co-processing en tensorparallel voor UniPrefill, waardoor naadloze integratie in vLLM mogelijk wordt. UniPrefill behaalt een snelheidswinst van tot 2,1x in Tijd-Tot-Eerste-Token (TTFT), waarbij de versnelling steeds duidelijker wordt naarmate het aantal gelijktijdige verzoeken toeneemt.

English

As large language models (LLMs) continue to advance rapidly, they are becoming increasingly capable while simultaneously demanding ever-longer context lengths. To improve the inference efficiency of long-context processing, several novel low-complexity hybrid architectures have recently been proposed, effectively alleviating the computational burden of long-context inference. However, existing research on long-context prefill acceleration remains predominantly focused on sparse attention mechanisms, which achieve their maximum speedup only on full-attention models. When transferred to emerging architectures--such as linear/full attention hybrids or sliding window/full attention hybrids--these prefill acceleration approaches suffer significant performance degradation. Furthermore, such methods are generally incompatible with continuous batching, making them difficult to integrate into modern inference engines such as vLLM. To this end, we propose UniPrefill, a prefill acceleration framework applicable to virtually any model architecture, which directly accelerates the model's computation at the token level. We further implement UniPrefill as a continuous batching operator and extend vLLM's scheduling strategy to natively support prefill-decode co-processing and tensor parallel for UniPrefill, enabling its seamless integration into vLLM. UniPrefill achieves up to 2.1x speedup in Time-To-First-Token (TTFT), with the acceleration becoming increasingly pronounced as the number of concurrent requests grows.