StateSMix: Online Verliesloze Compressie via Mamba State Space Modellen en Sparse N-gram Context Mixing

Samenvatting

Wij presenteren StateSMix, een volledig zelfstandige verliesloze compressor die een online-getraind State Space Model (SSM) in Mamba-stijl koppelt aan sparse n-gram context mixing en arithmetic coding. Het model wordt vanaf nul geïnitialiseerd en token-voor-token getraind op het bestand dat gecomprimeerd wordt, waarbij het geen vooraf getrainde gewichten, geen GPU en geen externe afhankelijkheden vereist. Het SSM (DM=32, NL=2, ongeveer 120K actieve parameters per bestand) verschaft een continu bijgewerkte kansschatting over BPE-tokens, terwijl negen sparse n-gram hashtabellen (bigram tot 32-gram, elk 16M slots) exacte lokale en lange-afstandspatroonherkenning toevoegen via een softmax-invariant logit-biasmechanisme dat alleen tokens met een niet-nul telling bijwerkt. Een entropie-adaptief schaalmechanisme moduleert de n-gram bijdrage op basis van het voorspellende vertrouwen van het SSM, om overcorrectie te voorkomen wanneer het neurale model reeds goed gekalibreerd is. Op de standaard enwik8 benchmark behaalt StateSMix 2,123 bpb op 1 MB, 2,149 bpb op 3 MB en 2,162 bpb op 10 MB, waarmee het xz -9e (LZMA2) respectievelijk met 8,7%, 5,4% en 0,7% verslaat. Ablatie-experimenten bevestigen het SSM als de dominante compressiemotor: het alleen al zorgt voor een 46,6% kleinere bestandsgrootte vergeleken met een frequentietelling-basislijn en verslaat xz zonder enige n-gram component, terwijl de n-gram tabellen een complementaire winst van 4,1% bieden door exacte contextmemorisatie. OpenMP-parallelisatie van de trainingslus levert een 1,9x snelheidswinst op met 4 kernen. Het systeem is geïmplementeerd in pure C met AVX2 SIMD en verwerkt ongeveer 2.000 tokens per seconde op standaard x86-64 hardware.

English

We present StateSMix, a fully self-contained lossless compressor that couples an online-trained Mamba-style State Space Model (SSM) with sparse n-gram context mixing and arithmetic coding. The model is initialised from scratch and trained token-by-token on the file being compressed, requiring no pre-trained weights, no GPU, and no external dependencies. The SSM (DM=32, NL=2, approximately 120K active parameters per file) provides a continuously-updated probability estimate over BPE tokens, while nine sparse n-gram hash tables (bigram through 32-gram, 16M slots each) add exact local and long-range pattern memorisation via a softmax-invariant logit-bias mechanism that updates only non-zero-count tokens. An entropy-adaptive scaling mechanism modulates the n-gram contribution based on the SSM's predictive confidence, preventing over-correction when the neural model is already well-calibrated. On the standard enwik8 benchmark, StateSMix achieves 2.123 bpb on 1 MB, 2.149 bpb on 3 MB, and 2.162 bpb on 10 MB, beating xz -9e (LZMA2) by 8.7%, 5.4%, and 0.7% respectively. Ablation experiments establish the SSM as the dominant compression engine: it alone accounts for a 46.6% size reduction over a frequency-count baseline and beats xz without any n-gram component, while n-gram tables provide a complementary 4.1% gain through exact context memorisation. OpenMP parallelisation of the training loop yields 1.9x speedup on 4 cores. The system is implemented in pure C with AVX2 SIMD and processes approximately 2,000 tokens per second on commodity x86-64 hardware.

StateSMix: Online Verliesloze Compressie via Mamba State Space Modellen en Sparse N-gram Context Mixing

StateSMix: Online Lossless Compression via Mamba State Space Models and Sparse N-gram Context Mixing

Samenvatting

Support