FlashPrefill : Découverte et seuillage instantanés de motifs pour un pré-remplissage ultra-rapide de contextes longs

Résumé

La modélisation de longs contextes est une capacité essentielle pour les grands modèles de langage, mais la complexité quadratique de l'attention reste un goulot d'étranglement critique, particulièrement durant la phase de préremplissage intensive en calcul. Bien que divers mécanismes d'attention éparse aient été explorés, ils souffrent généralement d'une latence de recherche significative ou d'une parcimonie insuffisante. Dans cet article, nous proposons FlashPrefill, un cadre permettant un préremplissage ultra-rapide via la découverte instantanée de motifs et un seuillage dynamique. FlashPrefill exploite une technique de recherche rapide par blocs pour localiser simultanément des motifs d'attention dynamiques verticaux, en diagonale et par blocs épars. Surtout, il introduit un mécanisme de seuillage dynamique qui contourne la surcharge prohibitive du tri ou de l'accumulation des scores d'attention tout en éliminant efficacement la distribution à queue longue pour améliorer la parcimonie. Des évaluations approfondies démontrent que FlashPrefill réalise un bond substantiel en efficacité, offrant une accélération inédite de 27,78x sur des séquences de 256K. Fait notable, contrairement aux méthodes existantes qui subissent une dégradation d'efficacité sur des contextes plus courts, FlashPrefill maintient une accélération de 1,71x même pour une longueur de contexte de 4K, démontrant sa robustesse et son utilité pratique à différentes échelles de séquences.

English

Long-context modeling is a pivotal capability for Large Language Models, yet the quadratic complexity of attention remains a critical bottleneck, particularly during the compute-intensive prefilling phase. While various sparse attention mechanisms have been explored, they typically suffer from either significant search latency or insufficient sparsity. In this paper, we propose FlashPrefill, a framework enabling ultra-fast prefilling via instantaneous pattern discovery and thresholding. FlashPrefill leverages a fast block-searching technique to simultaneously locate dynamic vertical, slash, and block-sparse attention patterns. Crucially, it introduces a dynamic thresholding mechanism that bypasses the prohibitive overhead of sorting or accumulating attention scores while effectively eliminating the long-tail distribution to enhance sparsity. Extensive evaluations demonstrate that FlashPrefill achieves a substantial leap in efficiency, delivering an unprecedented 27.78x speedup on 256K sequences. Notably, unlike existing methods that incur efficiency degradation on shorter contexts, FlashPrefill maintains a 1.71x speedup even at a 4K context length, demonstrating its robustness and practical utility across varying sequence scales.

FlashPrefill : Découverte et seuillage instantanés de motifs pour un pré-remplissage ultra-rapide de contextes longs

FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling

Résumé

Support