Native Sparse Attention: Hardware-afgestemde en van nature trainbare sparse attentionNative Sparse Attention: Hardware-Aligned and Natively Trainable Sparse
Attention
Lang-context modellering is cruciaal voor de volgende generatie taalmodelen, maar de hoge rekenkosten van standaard aandachtmechanismen vormen aanzienlijke computationele uitdagingen. Sparse aandacht biedt een veelbelovende richting voor het verbeteren van de efficiëntie terwijl de modelcapaciteiten behouden blijven. Wij presenteren NSA, een Natively trainable Sparse Attention mechanisme dat algoritmische innovaties combineert met hardware-afgestemde optimalisaties om efficiënte lang-context modellering te bereiken. NSA maakt gebruik van een dynamische hiërarchische sparse strategie, waarbij grofkorrelige tokencompressie wordt gecombineerd met fijnkorrelige tokenselectie om zowel globaal contextbewustzijn als lokale precisie te behouden. Onze aanpak brengt sparse aandachtontwerp verder met twee belangrijke innovaties: (1) We behalen aanzienlijke snelheidswinsten door een rekenintensiteit-gebalanceerd algoritmeontwerp, met implementatieoptimalisaties voor moderne hardware. (2) We maken end-to-end training mogelijk, waardoor de rekentijd vooraf wordt verminderd zonder in te leveren op modelprestaties. Zoals weergegeven in Figuur 1, tonen experimenten aan dat het model dat met NSA is voorgetraind, presteert op of boven het niveau van Full Attention-modellen op algemene benchmarks, lang-context taken en instructiegebaseerd redeneren. Tegelijkertijd behaalt NSA aanzienlijke snelheidswinsten ten opzichte van Full Attention op sequenties van 64k lengte tijdens decodering, voorwaartse propagatie en achterwaartse propagatie, wat de efficiëntie gedurende de gehele modellevenscyclus bevestigt.