FlashPrefill: Descoberta Instantânea de Padrões e Limiarização para Pré-preenchimento Ultra-Rápido de Contexto Longo

Resumo

A modelagem de contexto longo é uma capacidade fundamental para Modelos de Linguagem de Grande Porte, porém a complexidade quadrática do mecanismo de atenção permanece um gargalo crítico, particularmente durante a fase computacionalmente intensiva de pré-preenchimento (prefilling). Embora vários mecanismos de atenção esparsa tenham sido explorados, eles geralmente sofrem com latência de busca significativa ou esparsidade insuficiente. Neste artigo, propomos o FlashPrefill, uma estrutura que permite um pré-preenchimento ultrarrápido por meio da descoberta e limiarização instantânea de padrões. O FlashPrefill aproveita uma técnica rápida de busca por blocos para localizar simultaneamente padrões dinâmicos de atenção vertical, diagonal e em bloco esparso. Crucialmente, ele introduz um mecanismo de limiarização dinâmica que contorna a sobrecarga proibitiva de ordenar ou acumular escores de atenção, enquanto elimina efetivamente a distribuição de cauda longa para aumentar a esparsidade. Avaliações extensivas demonstram que o FlashPrefill alcança um salto substancial em eficiência, proporcionando um aceleramento inédito de 27,78x em sequências de 256K. Notavelmente, diferentemente de métodos existentes que sofrem degradação de eficiência em contextos mais curtos, o FlashPrefill mantém um speedup de 1,71x mesmo em um comprimento de contexto de 4K, demonstrando sua robustez e utilidade prática em diferentes escalas de sequência.

English

Long-context modeling is a pivotal capability for Large Language Models, yet the quadratic complexity of attention remains a critical bottleneck, particularly during the compute-intensive prefilling phase. While various sparse attention mechanisms have been explored, they typically suffer from either significant search latency or insufficient sparsity. In this paper, we propose FlashPrefill, a framework enabling ultra-fast prefilling via instantaneous pattern discovery and thresholding. FlashPrefill leverages a fast block-searching technique to simultaneously locate dynamic vertical, slash, and block-sparse attention patterns. Crucially, it introduces a dynamic thresholding mechanism that bypasses the prohibitive overhead of sorting or accumulating attention scores while effectively eliminating the long-tail distribution to enhance sparsity. Extensive evaluations demonstrate that FlashPrefill achieves a substantial leap in efficiency, delivering an unprecedented 27.78x speedup on 256K sequences. Notably, unlike existing methods that incur efficiency degradation on shorter contexts, FlashPrefill maintains a 1.71x speedup even at a 4K context length, demonstrating its robustness and practical utility across varying sequence scales.

FlashPrefill: Descoberta Instantânea de Padrões e Limiarização para Pré-preenchimento Ultra-Rápido de Contexto Longo

FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling

Resumo

Support