UniPrefill: Aceleración Universal de Prellenado de Contexto Largo mediante Esparcimiento Dinámico por Bloques

Resumen

A medida que los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) avanzan rápidamente, se vuelven cada vez más capaces al mismo tiempo que requieren contextos cada vez más largos. Para mejorar la eficiencia de inferencia en el procesamiento de contextos extensos, recientemente se han propuesto varias arquitecturas híbridas novedosas de baja complejidad, aliviando efectivamente la carga computacional de la inferencia en contextos largos. Sin embargo, la investigación existente sobre la aceleración del prellenado en contextos extensos sigue centrada predominantemente en mecanismos de atención dispersa, que alcanzan su máxima aceleración solo en modelos de atención completa. Cuando se trasladan a arquitecturas emergentes—como híbridos de atención lineal/completa o híbridos de ventana deslizante/atención completa—estos enfoques de aceleración del prellenado sufren una degradación significativa en el rendimiento. Además, dichos métodos suelen ser incompatibles con el procesamiento por lotes continuo, lo que dificulta su integración en motores de inferencia modernos como vLLM. Con este fin, proponemos UniPrefill, un marco de aceleración de prellenado aplicable a prácticamente cualquier arquitectura de modelo, que acelera directamente el cálculo del modelo a nivel de token. Además, implementamos UniPrefill como un operador de procesamiento por lotes continuo y extendemos la estrategia de planificación de vLLM para admitir nativamente el coprocesamiento de prellenado-decodificación y el paralelismo tensorial para UniPrefill, permitiendo su integración sin problemas en vLLM. UniPrefill logra una aceleración de hasta 2.1x en el Tiempo para el Primer Token (TTFT), con una mejora cada vez más notable a medida que crece el número de solicitudes concurrentes.

English

As large language models (LLMs) continue to advance rapidly, they are becoming increasingly capable while simultaneously demanding ever-longer context lengths. To improve the inference efficiency of long-context processing, several novel low-complexity hybrid architectures have recently been proposed, effectively alleviating the computational burden of long-context inference. However, existing research on long-context prefill acceleration remains predominantly focused on sparse attention mechanisms, which achieve their maximum speedup only on full-attention models. When transferred to emerging architectures--such as linear/full attention hybrids or sliding window/full attention hybrids--these prefill acceleration approaches suffer significant performance degradation. Furthermore, such methods are generally incompatible with continuous batching, making them difficult to integrate into modern inference engines such as vLLM. To this end, we propose UniPrefill, a prefill acceleration framework applicable to virtually any model architecture, which directly accelerates the model's computation at the token level. We further implement UniPrefill as a continuous batching operator and extend vLLM's scheduling strategy to natively support prefill-decode co-processing and tensor parallel for UniPrefill, enabling its seamless integration into vLLM. UniPrefill achieves up to 2.1x speedup in Time-To-First-Token (TTFT), with the acceleration becoming increasingly pronounced as the number of concurrent requests grows.

UniPrefill: Aceleración Universal de Prellenado de Contexto Largo mediante Esparcimiento Dinámico por Bloques

UniPrefill: Universal Long-Context Prefill Acceleration via Block-wise Dynamic Sparsification

Resumen

Support