FlashMemory-DeepSeek-V4: Blitzindex für ultralangen Kontext via Lookahead Sparse Attention

Zusammenfassung

Herkömmliche LLMs halten den vollständigen KV-Cache während des Decodings geladen, was zu einem schwerwiegenden GPU-Speicher-Engpass für den Dienst mit extrem langen Kontexten führt. In diesem Bericht schlagen wir Lookahead Sparse Attention (LSA) vor, ein neuartiges Inferenzparadigma, das von einem auf der DeepSeek-V4-Architektur basierenden Neural Memory Indexer angetrieben wird. Anstatt passiv auf alle historischen Token zu achten, sagt LSA proaktiv zukünftige Kontextanforderungen voraus und behält nur die abfragekritischen KV-Blöcke im GPU-Speicher. Entscheidend ist, dass wir diese Architektur mittels einer backbone-freien entkoppelten Trainingsstrategie instanziieren. Indem wir den Indexer als eine Standard-Dual-Encoder-Architektur formulieren, trainieren wir ihn unabhängig mit standardmäßigen Retrieval-Trainingsframeworks, ohne jemals das massive Backbone-Modell in den GPU-Speicher zu laden. Wir zeigen, dass dieses "Weniger ist mehr"-Paradigma die Serviereffizienz erheblich maximiert und gleichzeitig als effektiver Attention-Denoiser bei Aufgaben fungiert, die auf langfristiges globales Gedächtnis angewiesen sind. In primären Long-Context-Evaluierungssuiten (z.B. LongBench-v2, LongMemEval und RULER) komprimiert FM-DS-V4 den durchschnittlichen physischen KV-Cache-Fußabdruck auf lediglich 13,5% der Vollkontext-Baseline, während die nachgelagerte Genauigkeit durchgängig erhalten oder leicht erhöht wird (im Durchschnitt +0,6% absolute Marge). Entscheidend ist, dass FlashMemory bei extremen 500K-Skalen den physischen KV-Cache-Overhead um über 90% unterdrückt, ohne die Kern-Schlussfolgerungsfähigkeiten des Backbones zu destabilisieren.

English

Conventional LLMs keep the full KV cache loaded during decoding, causing a severe GPU memory bottleneck for ultra-long context serving. In this report, we propose Lookahead Sparse Attention (LSA), a novel inference paradigm powered by a Neural Memory Indexer built upon the DeepSeek-V4 architecture. Rather than passively attending to all historical tokens, LSA proactively predicts future context demands and preserves only the query-critical KV chunks in the GPU memory. Crucially, we instantiate this architecture via a backbone-free decoupled training strategy. By formulating the indexer as a standard dual-encoder architecture, we train it independently using standard retrieval training frameworks without ever loading the massive backbone model into GPU memory. We demonstrate that this "less is more" paradigm significantly maximizes serving efficiency while acting as an effective attention denoiser in tasks that rely on long-term global memory. Across primary long-context evaluation suites (e.g., LongBench-v2, LongMemEval, and RULER), FM-DS-V4 compresses the average physical KV cache footprint down to merely 13.5% of the full-context baseline, while consistently preserving or slightly elevating downstream accuracy (+0.6% absolute margin on average). Crucially, at extreme 500K scales, FlashMemory suppresses the physical KV cache overhead by over 90% without destabilizing the backbone's core reasoning capacities.