FlashPrefill: Мгновенное обнаружение шаблонов и пороговая обработка для сверхбыстрого предварительного заполнения длинных контекстов

Аннотация

Моделирование длинных контекстов является ключевой способностью больших языковых моделей, однако квадратичная сложность механизма внимания остается серьезным узким местом, особенно на ресурсоемкой стадии предварительного заполнения. Хотя были исследованы различные механизмы разреженного внимания, они обычно страдают либо от значительной задержки поиска, либо от недостаточной разреженности. В данной статье мы предлагаем FlashPrefill — фреймворк, обеспечивающий сверхбыстрое предварительное заполнение за счет мгновенного обнаружения паттернов и пороговой фильтрации. FlashPrefill использует технику быстрого поиска блоков для одновременного определения динамических паттернов внимания: вертикального, диагонального и блочно-разреженного. Ключевым нововведением является механизм динамической пороговой фильтрации, который избегает запретительных затрат на сортировку или накопление оценок внимания, эффективно устраняя «длинный хвост» распределения для повышения разреженности. Многочисленные эксперименты демонстрируют, что FlashPrefill обеспечивает значительный прорыв в эффективности, достигая беспрецедентного ускорения в 27.78 раз на последовательностях длиной 256K. Примечательно, что в отличие от существующих методов, теряющих эффективность на коротких контекстах, FlashPrefill сохраняет ускорение в 1.71 раз даже при длине контекста 4K, что подтверждает его надежность и практическую полезность для различных масштабов последовательностей.

English

Long-context modeling is a pivotal capability for Large Language Models, yet the quadratic complexity of attention remains a critical bottleneck, particularly during the compute-intensive prefilling phase. While various sparse attention mechanisms have been explored, they typically suffer from either significant search latency or insufficient sparsity. In this paper, we propose FlashPrefill, a framework enabling ultra-fast prefilling via instantaneous pattern discovery and thresholding. FlashPrefill leverages a fast block-searching technique to simultaneously locate dynamic vertical, slash, and block-sparse attention patterns. Crucially, it introduces a dynamic thresholding mechanism that bypasses the prohibitive overhead of sorting or accumulating attention scores while effectively eliminating the long-tail distribution to enhance sparsity. Extensive evaluations demonstrate that FlashPrefill achieves a substantial leap in efficiency, delivering an unprecedented 27.78x speedup on 256K sequences. Notably, unlike existing methods that incur efficiency degradation on shorter contexts, FlashPrefill maintains a 1.71x speedup even at a 4K context length, demonstrating its robustness and practical utility across varying sequence scales.

FlashPrefill: Мгновенное обнаружение шаблонов и пороговая обработка для сверхбыстрого предварительного заполнения длинных контекстов

FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling

Аннотация

Support