FlashPrefill: Sofortige Mustererkennung und Schwellenwertoptimierung für ultraschnelles Prefilling langer Kontexte

Zusammenfassung

Die Modellierung langer Kontexte ist eine entscheidende Fähigkeit für große Sprachmodelle, doch die quadratische Komplexität der Aufmerksamkeitsmechanismen bleibt ein kritischer Engpass, insbesondere während der rechenintensiven Prefilling-Phase. Während verschiedene spärliche Aufmerksamkeitsmechanismen erforscht wurden, leiden diese typischerweise entweder unter signifikanten Suchlatenzen oder unzureichender Sparsity. In dieser Arbeit stellen wir FlashPrefill vor, ein Framework, das ultraschnelles Prefilling durch sofortige Mustererkennung und Schwellwertbildung ermöglicht. FlashPrefill nutzt eine schnelle Block-Suchtechnik, um dynamische vertikale, diagonale und block-sparse Aufmerksamkeitsmuster gleichzeitig zu lokalisieren. Entscheidend ist die Einführung eines dynamischen Schwellwertmechanismus, der den prohibitiv hohen Overhead durch Sortieren oder Akkumulieren von Aufmerksamkeitswerten umgeht und gleichzeitig die Long-Tail-Verteilung effektiv eliminiert, um die Sparsity zu erhöhen. Umfangreiche Auswertungen zeigen, dass FlashPrefill einen erheblichen Effizienzsprung erreicht und eine beispiellose 27,78-fache Beschleunigung bei 256K-Sequenzen erzielt. Bemerkenswerterweise bleibt FlashPrefill – im Gegensatz zu bestehenden Methoden, die bei kürzeren Kontexten an Effizienz verlieren – selbst bei einer Kontextlänge von 4K mit einer 1,71-fachen Beschleunigung robust und demonstriert damit seine praktische Nützlichkeit über verschiedene Sequenzlängen hinweg.

English

Long-context modeling is a pivotal capability for Large Language Models, yet the quadratic complexity of attention remains a critical bottleneck, particularly during the compute-intensive prefilling phase. While various sparse attention mechanisms have been explored, they typically suffer from either significant search latency or insufficient sparsity. In this paper, we propose FlashPrefill, a framework enabling ultra-fast prefilling via instantaneous pattern discovery and thresholding. FlashPrefill leverages a fast block-searching technique to simultaneously locate dynamic vertical, slash, and block-sparse attention patterns. Crucially, it introduces a dynamic thresholding mechanism that bypasses the prohibitive overhead of sorting or accumulating attention scores while effectively eliminating the long-tail distribution to enhance sparsity. Extensive evaluations demonstrate that FlashPrefill achieves a substantial leap in efficiency, delivering an unprecedented 27.78x speedup on 256K sequences. Notably, unlike existing methods that incur efficiency degradation on shorter contexts, FlashPrefill maintains a 1.71x speedup even at a 4K context length, demonstrating its robustness and practical utility across varying sequence scales.

FlashPrefill: Sofortige Mustererkennung und Schwellenwertoptimierung für ultraschnelles Prefilling langer Kontexte

FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling

Zusammenfassung

Support