FlashPrefill: Descubrimiento y Umbralización Instantánea de Patrones para el Prellenado Ultra-Rápido de Contextos Largos

Resumen

La modelización de contexto largo es una capacidad fundamental para los Modelos de Lenguaje a Gran Escala, aunque la complejidad cuadrática de la atención sigue siendo un cuello de botella crítico, particularmente durante la fase computacionalmente intensiva de prefilling. Si bien se han explorado varios mecanismos de atención dispersa, estos generalmente adolecen de una latencia de búsqueda significativa o de una dispersión insuficiente. En este artículo, proponemos FlashPrefill, un marco que permite un prefilling ultrarrápido mediante el descubrimiento instantáneo de patrones y umbralización. FlashPrefill aprovecha una técnica rápida de búsqueda por bloques para localizar simultáneamente patrones de atención dinámicos verticales, en diagonal y dispersos por bloques. De manera crucial, introduce un mecanismo de umbralización dinámica que evita la abrumadora sobrecarga de ordenar o acumular puntuaciones de atención, eliminando eficazmente la distribución de cola larga para mejorar la dispersión. Evaluaciones exhaustivas demuestran que FlashPrefill logra un avance sustancial en eficiencia, ofreciendo una aceleración sin precedentes de 27.78x en secuencias de 256K tokens. Notablemente, a diferencia de los métodos existentes que sufren una degradación de la eficiencia en contextos más cortos, FlashPrefill mantiene una aceleración de 1.71x incluso con una longitud de contexto de 4K, demostrando su robustez y utilidad práctica a través de diversas escalas de secuencias.

English

Long-context modeling is a pivotal capability for Large Language Models, yet the quadratic complexity of attention remains a critical bottleneck, particularly during the compute-intensive prefilling phase. While various sparse attention mechanisms have been explored, they typically suffer from either significant search latency or insufficient sparsity. In this paper, we propose FlashPrefill, a framework enabling ultra-fast prefilling via instantaneous pattern discovery and thresholding. FlashPrefill leverages a fast block-searching technique to simultaneously locate dynamic vertical, slash, and block-sparse attention patterns. Crucially, it introduces a dynamic thresholding mechanism that bypasses the prohibitive overhead of sorting or accumulating attention scores while effectively eliminating the long-tail distribution to enhance sparsity. Extensive evaluations demonstrate that FlashPrefill achieves a substantial leap in efficiency, delivering an unprecedented 27.78x speedup on 256K sequences. Notably, unlike existing methods that incur efficiency degradation on shorter contexts, FlashPrefill maintains a 1.71x speedup even at a 4K context length, demonstrating its robustness and practical utility across varying sequence scales.

FlashPrefill: Descubrimiento y Umbralización Instantánea de Patrones para el Prellenado Ultra-Rápido de Contextos Largos

FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling

Resumen

Support