StateSMix: Онлайн-сжатие без потерь на основе State Space Models Mamba и смешения разреженных N-граммных контекстов

Аннотация

Мы представляем StateSMix — полностью автономный беспотерьный компрессор, который объединяет обучаемую в реальном времени State Space Model (SSM) в стиле Mamba с разреженным n-граммным контекстным смешиванием и арифметическим кодированием. Модель инициализируется с нуля и обучается посимвольно на сжимаемом файле, не требуя предварительно обученных весов, GPU или внешних зависимостей. SSM (DM=32, NL=2, примерно 120K активных параметров на файл) обеспечивает непрерывно обновляемую вероятностную оценку для BPE-токенов, в то время как девять разреженных хэш-таблиц n-грамм (от биграмм до 32-грамм, по 16M слотов каждая) добавляют точное запоминание локальных и долгосрочных шаблонов посредством softmax-инвариантного механизма logit-смещения, который обновляет только токены с ненулевым счетчиком. Энтропийно-адаптивный механизм масштабирования регулирует вклад n-грамм на основе прогностической уверенности SSM, предотвращая избыточную коррекцию, когда нейросетевая модель уже хорошо откалибрована. На стандартном тесте enwik8 StateSMix достигает 2,123 bpb на 1 МБ, 2,149 bpb на 3 МБ и 2,162 bpb на 10 МБ, превосходя xz -9e (LZMA2) на 8,7%, 5,4% и 0,7% соответственно. Абляционные эксперименты подтверждают, что SSM является основным движком сжатия: она одна обеспечивает сокращение размера на 46,6% по сравнению с базовым частотным методом и превосходит xz без какого-либо n-граммного компонента, в то время как n-граммные таблицы дают дополнительный выигрыш в 4,1% за счет точного запоминания контекста. Параллелизация цикла обучения с помощью OpenMP обеспечивает ускорение в 1,9 раза на 4 ядрах. Система реализована на чистом C с использованием AVX2 SIMD и обрабатывает примерно 2000 токенов в секунду на стандартном x86-64 оборудовании.

English

We present StateSMix, a fully self-contained lossless compressor that couples an online-trained Mamba-style State Space Model (SSM) with sparse n-gram context mixing and arithmetic coding. The model is initialised from scratch and trained token-by-token on the file being compressed, requiring no pre-trained weights, no GPU, and no external dependencies. The SSM (DM=32, NL=2, approximately 120K active parameters per file) provides a continuously-updated probability estimate over BPE tokens, while nine sparse n-gram hash tables (bigram through 32-gram, 16M slots each) add exact local and long-range pattern memorisation via a softmax-invariant logit-bias mechanism that updates only non-zero-count tokens. An entropy-adaptive scaling mechanism modulates the n-gram contribution based on the SSM's predictive confidence, preventing over-correction when the neural model is already well-calibrated. On the standard enwik8 benchmark, StateSMix achieves 2.123 bpb on 1 MB, 2.149 bpb on 3 MB, and 2.162 bpb on 10 MB, beating xz -9e (LZMA2) by 8.7%, 5.4%, and 0.7% respectively. Ablation experiments establish the SSM as the dominant compression engine: it alone accounts for a 46.6% size reduction over a frequency-count baseline and beats xz without any n-gram component, while n-gram tables provide a complementary 4.1% gain through exact context memorisation. OpenMP parallelisation of the training loop yields 1.9x speedup on 4 cores. The system is implemented in pure C with AVX2 SIMD and processes approximately 2,000 tokens per second on commodity x86-64 hardware.

StateSMix: Онлайн-сжатие без потерь на основе State Space Models Mamba и смешения разреженных N-граммных контекстов

StateSMix: Online Lossless Compression via Mamba State Space Models and Sparse N-gram Context Mixing

Аннотация

Support