StateSMix : Compression sans perte en ligne via des modèles d'espace d'état Mamba et un mélange de contexte à N-grammes épars

Résumé

Nous présentons StateSMix, un compresseur sans perte entièrement autonome qui couple un modèle à espace d'état (State Space Model, SSM) de type Mamba, entraîné en ligne, à un mélange de contextes n-grammes creux et un codage arithmétique. Le modèle est initialisé de zéro et entraîné token par token sur le fichier à compresser, ne nécessitant aucun poids pré-entraîné, aucun GPU et aucune dépendance externe. Le SSM (DM=32, NL=2, environ 120 000 paramètres actifs par fichier) fournit une estimation de probabilité continuellement mise à jour sur les tokens BPE, tandis que neuf tables de hachage n-grammes creuses (du bigramme au 32-gramme, 16 millions d'emplacements chacune) ajoutent une mémorisation exacte des motifs locaux et à longue portée via un mécanisme de biais de logit invariant au softmax qui ne met à jour que les tokens ayant un décompte non nul. Un mécanisme de mise à l'échelle adaptatif à l'entropie module la contribution des n-grammes en fonction de la confiance prédictive du SSM, empêchant une surcorrection lorsque le modèle neuronal est déjà bien calibré. Sur le benchmark standard enwik8, StateSMix atteint 2,123 bpb sur 1 Mo, 2,149 bpb sur 3 Mo et 2,162 bpb sur 10 Mo, surpassant xz -9e (LZMA2) de respectivement 8,7 %, 5,4 % et 0,7 %. Des expériences d'ablation établissent le SSM comme le moteur de compression dominant : à lui seul, il représente une réduction de taille de 46,6 % par rapport à une base de référence par comptage de fréquence et surpasse xz sans aucun composant n-gramme, tandis que les tables n-grammes fournissent un gain complémentaire de 4,1 % grâce à la mémorisation exacte du contexte. La parallélisation OpenMP de la boucle d'entraînement procure une accélération de 1,9x sur 4 cœurs. Le système est implémenté en C pur avec des instructions SIMD AVX2 et traite environ 2 000 tokens par seconde sur du matériel x86-64 standard.

English

We present StateSMix, a fully self-contained lossless compressor that couples an online-trained Mamba-style State Space Model (SSM) with sparse n-gram context mixing and arithmetic coding. The model is initialised from scratch and trained token-by-token on the file being compressed, requiring no pre-trained weights, no GPU, and no external dependencies. The SSM (DM=32, NL=2, approximately 120K active parameters per file) provides a continuously-updated probability estimate over BPE tokens, while nine sparse n-gram hash tables (bigram through 32-gram, 16M slots each) add exact local and long-range pattern memorisation via a softmax-invariant logit-bias mechanism that updates only non-zero-count tokens. An entropy-adaptive scaling mechanism modulates the n-gram contribution based on the SSM's predictive confidence, preventing over-correction when the neural model is already well-calibrated. On the standard enwik8 benchmark, StateSMix achieves 2.123 bpb on 1 MB, 2.149 bpb on 3 MB, and 2.162 bpb on 10 MB, beating xz -9e (LZMA2) by 8.7%, 5.4%, and 0.7% respectively. Ablation experiments establish the SSM as the dominant compression engine: it alone accounts for a 46.6% size reduction over a frequency-count baseline and beats xz without any n-gram component, while n-gram tables provide a complementary 4.1% gain through exact context memorisation. OpenMP parallelisation of the training loop yields 1.9x speedup on 4 cores. The system is implemented in pure C with AVX2 SIMD and processes approximately 2,000 tokens per second on commodity x86-64 hardware.

StateSMix : Compression sans perte en ligne via des modèles d'espace d'état Mamba et un mélange de contexte à N-grammes épars

StateSMix: Online Lossless Compression via Mamba State Space Models and Sparse N-gram Context Mixing

Résumé

Support