Natürliche Sparse Attention: Hardware-ausgerichtet und nativ trainierbare Sparse Attention

papers.abstract

Die Modellierung von langen Kontexten ist entscheidend für Sprachmodelle der nächsten Generation, jedoch stellt der hohe Rechenaufwand herkömmlicher Aufmerksamkeitsmechanismen bedeutende Rechenherausforderungen dar. Sparse Attention bietet eine vielversprechende Möglichkeit, die Effizienz zu verbessern, während die Modellfähigkeiten erhalten bleiben. Wir präsentieren NSA, einen nativ trainierbaren Sparse Attention Mechanismus, der algorithmische Innovationen mit hardwareorientierten Optimierungen integriert, um eine effiziente Modellierung langer Kontexte zu erreichen. NSA verwendet eine dynamische hierarchische Sparse-Strategie, die eine grobkörnige Token-Kompression mit einer feinkörnigen Token-Auswahl kombiniert, um sowohl das Bewusstsein für den globalen Kontext als auch die lokale Präzision zu erhalten. Unser Ansatz verbessert das Design von Sparse Attention durch zwei Schlüsselinnovationen: (1) Wir erzielen erhebliche Beschleunigungen durch eine algorithmische Gestaltung mit ausgewogener arithmetischer Intensität und Implementierungsoptimierungen für moderne Hardware. (2) Wir ermöglichen ein End-to-End-Training, das die Vorab-Berechnung reduziert, ohne die Modellleistung zu beeinträchtigen. Wie in Abbildung 1 gezeigt, zeigen Experimente, dass das mit NSA vorab trainierte Modell bei allgemeinen Benchmarks, langen Kontextaufgaben und instruktionsbasiertem Denken die Full Attention-Modelle beibehält oder übertrifft. Gleichzeitig erzielt NSA erhebliche Beschleunigungen gegenüber Full Attention bei Sequenzen mit einer Länge von 64k über Dekodierung, Vorwärts- und Rückwärtspropagation und bestätigt so seine Effizienz im gesamten Modelllebenszyklus.

English

Long-context modeling is crucial for next-generation language models, yet the high computational cost of standard attention mechanisms poses significant computational challenges. Sparse attention offers a promising direction for improving efficiency while maintaining model capabilities. We present NSA, a Natively trainable Sparse Attention mechanism that integrates algorithmic innovations with hardware-aligned optimizations to achieve efficient long-context modeling. NSA employs a dynamic hierarchical sparse strategy, combining coarse-grained token compression with fine-grained token selection to preserve both global context awareness and local precision. Our approach advances sparse attention design with two key innovations: (1) We achieve substantial speedups through arithmetic intensity-balanced algorithm design, with implementation optimizations for modern hardware. (2) We enable end-to-end training, reducing pretraining computation without sacrificing model performance. As shown in Figure 1, experiments show the model pretrained with NSA maintains or exceeds Full Attention models across general benchmarks, long-context tasks, and instruction-based reasoning. Meanwhile, NSA achieves substantial speedups over Full Attention on 64k-length sequences across decoding, forward propagation, and backward propagation, validating its efficiency throughout the model lifecycle.

Natürliche Sparse Attention: Hardware-ausgerichtet und nativ trainierbare Sparse Attention

Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

papers.abstract

Support