StateSMix: Compresión en Línea sin Pérdidas mediante Modelos de Espacio de Estados Mamba y Mezcla de Contexto de N-gramas Dispersos

Resumen

Presentamos StateSMix, un compresor sin pérdida completamente autónomo que combina un Modelo de Espacio de Estados (SSM) estilo Mamba entrenado en línea con una mezcla de contextos de n-gramas dispersos y codificación aritmética. El modelo se inicializa desde cero y se entrena token por token en el archivo que se está comprimiendo, sin requerir pesos preentrenados, GPU ni dependencias externas. El SSM (DM=32, NL=2, aproximadamente 120K parámetros activos por archivo) proporciona una estimación de probabilidad actualizada continuamente sobre tokens BPE, mientras que nueve tablas hash de n-gramas dispersos (desde bigramas hasta 32-gramas, 16 millones de slots cada una) añaden memorización exacta de patrones locales y de largo alcance mediante un mecanismo de sesgo de logit invariante a softmax que actualiza solo los tokens con conteo distinto de cero. Un mecanismo de escalado adaptativo a la entropía modula la contribución de los n-gramas en función de la confianza predictiva del SSM, evitando sobrecorrecciones cuando el modelo neuronal ya está bien calibrado. En el benchmark estándar enwik8, StateSMix logra 2.123 bpb en 1 MB, 2.149 bpb en 3 MB y 2.162 bpb en 10 MB, superando a xz -9e (LZMA2) en un 8.7%, 5.4% y 0.7% respectivamente. Experimentos de ablación establecen al SSM como el motor de compresión dominante: por sí solo representa una reducción del 46.6% en el tamaño respecto a una línea base de conteo de frecuencias y supera a xz sin ningún componente de n-gramas, mientras que las tablas de n-gramas proporcionan una ganancia complementaria del 4.1% mediante la memorización exacta de contexto. La paralelización OpenMP del bucle de entrenamiento produce una aceleración de 1.9x en 4 núcleos. El sistema está implementado en C puro con SIMD AVX2 y procesa aproximadamente 2,000 tokens por segundo en hardware x86-64 convencional.

English

We present StateSMix, a fully self-contained lossless compressor that couples an online-trained Mamba-style State Space Model (SSM) with sparse n-gram context mixing and arithmetic coding. The model is initialised from scratch and trained token-by-token on the file being compressed, requiring no pre-trained weights, no GPU, and no external dependencies. The SSM (DM=32, NL=2, approximately 120K active parameters per file) provides a continuously-updated probability estimate over BPE tokens, while nine sparse n-gram hash tables (bigram through 32-gram, 16M slots each) add exact local and long-range pattern memorisation via a softmax-invariant logit-bias mechanism that updates only non-zero-count tokens. An entropy-adaptive scaling mechanism modulates the n-gram contribution based on the SSM's predictive confidence, preventing over-correction when the neural model is already well-calibrated. On the standard enwik8 benchmark, StateSMix achieves 2.123 bpb on 1 MB, 2.149 bpb on 3 MB, and 2.162 bpb on 10 MB, beating xz -9e (LZMA2) by 8.7%, 5.4%, and 0.7% respectively. Ablation experiments establish the SSM as the dominant compression engine: it alone accounts for a 46.6% size reduction over a frequency-count baseline and beats xz without any n-gram component, while n-gram tables provide a complementary 4.1% gain through exact context memorisation. OpenMP parallelisation of the training loop yields 1.9x speedup on 4 cores. The system is implemented in pure C with AVX2 SIMD and processes approximately 2,000 tokens per second on commodity x86-64 hardware.

StateSMix: Compresión en Línea sin Pérdidas mediante Modelos de Espacio de Estados Mamba y Mezcla de Contexto de N-gramas Dispersos

StateSMix: Online Lossless Compression via Mamba State Space Models and Sparse N-gram Context Mixing

Resumen

Support