FlashPrefill: Scoperta e Soglia Istantanee di Pattern per Prefilling Ultra-Rapido con Contesti Lunghi

Abstract

La modellazione a contesto lungo è una capacità fondamentale per i Large Language Model, ma la complessità quadratica dell'attenzione rimane un collo di bottiglia critico, specialmente durante la fase computazionalmente intensa del prefilling. Sebbene siano state esplorate varie meccanismi di attenzione sparsa, questi tipicamente soffrono di una latenza di ricerca significativa o di una sparsità insufficiente. In questo articolo, proponiamo FlashPrefill, un framework che abilita un prefilling ultra-rapido mediante l'individuazione istantanea di pattern e il thresholding dinamico. FlashPrefill utilizza una tecnica di ricerca rapida a blocchi per localizzare simultaneamente pattern di attenzione dinamici verticali, diagonali e a blocchi sparsi. Crucialmente, introduce un meccanismo di thresholding dinamico che bypassa l'onere proibitivo dell'ordinamento o dell'accumulo dei punteggi di attenzione, eliminando efficacemente la distribuzione a coda lunga per migliorare la sparsità. Valutazioni estensive dimostrano che FlashPrefill raggiunge un salto sostanziale in efficienza, offrendo un incremento di velocità senza precedenti di 27.78x su sequenze di 256K. Notevolmente, a differenza dei metodi esistenti che subiscono un degrado dell'efficienza su contesti più brevi, FlashPrefill mantiene un incremento di 1.71x anche a una lunghezza di contesto di 4K, dimostrando la sua robustezza e utilità pratica attraverso diverse scale di sequenze.

English

Long-context modeling is a pivotal capability for Large Language Models, yet the quadratic complexity of attention remains a critical bottleneck, particularly during the compute-intensive prefilling phase. While various sparse attention mechanisms have been explored, they typically suffer from either significant search latency or insufficient sparsity. In this paper, we propose FlashPrefill, a framework enabling ultra-fast prefilling via instantaneous pattern discovery and thresholding. FlashPrefill leverages a fast block-searching technique to simultaneously locate dynamic vertical, slash, and block-sparse attention patterns. Crucially, it introduces a dynamic thresholding mechanism that bypasses the prohibitive overhead of sorting or accumulating attention scores while effectively eliminating the long-tail distribution to enhance sparsity. Extensive evaluations demonstrate that FlashPrefill achieves a substantial leap in efficiency, delivering an unprecedented 27.78x speedup on 256K sequences. Notably, unlike existing methods that incur efficiency degradation on shorter contexts, FlashPrefill maintains a 1.71x speedup even at a 4K context length, demonstrating its robustness and practical utility across varying sequence scales.

FlashPrefill: Scoperta e Soglia Istantanee di Pattern per Prefilling Ultra-Rapido con Contesti Lunghi

FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling

Abstract

Support