Nacrith : Compression Neurale Sans Perte par Modélisation de Contexte d'Ensemble et Codage CDF de Haute Précision

Résumé

Nous présentons Nacrith, un système de compression sans perte qui combine un modèle de langage transformeur de 135 millions de paramètres (SmolLM2-135M) avec un ensemble de prédicteurs légers en ligne et un codeur arithmétique 32 bits. Au-delà du paradigme de base LLM-plus-codage-arithmétique, Nacrith introduit plusieurs contributions : (1) une augmentation de la précision de la FCD de 2^16 à 2^24 qui élimine ~75 % de la surcharge de quantification causée par les planchers de probabilité minimale dans les grands vocabulaires ; (2) un modèle N-gramme au niveau des tokens pour des prédictions locales rapides ; (3) une tête de biais adaptative dans l'espace logarithmique corrigeant les erreurs du LLM par document via une descente de gradient en ligne ; (4) un saut conditionnel du LLM basé sur la confiance pour accélérer les tokens hautement prévisibles ; (5) un format binaire hybride (NC06) étendant la compression neuronale à des fichiers binaires arbitraires – à notre connaissance, une première parmi les compresseurs basés sur LLM ; (6) un backend d'inférence llama.cpp permettant une décodage environ 7x plus rapide par token que PyTorch ; (7) une compression parallèle multi-GPU sur jusqu'à 8 workers ; et (8) une fenêtre glissante native du cache KV réduisant le coût par glissement d'environ 37x. Le système ne nécessite qu'environ 500 Mo de poids GGUF et ~1,2 Go de VRAM par worker, fonctionnant sur des GPU grand public. Sur alice29.txt (Corpus de Canterbury, 152 Ko), Nacrith atteint 0,918 bit par octet (bpb) – surpassant gzip par un facteur de 3,1, bzip2 par 2,5, CMIX v21 de 44 % et ts_zip de 20 %, tout en compressant en dessous des bornes d'entropie de Shannon au niveau de l'octet d'ordre 0, 1 et 2. Sur enwik8 (100 Mo), Nacrith atteint 0,9389 bpb (11,74 %), dépassant ts_zip (~1,11 bpb) de 15 % et FineZip (1,024 bpb) de 8 %, malgré l'utilisation d'un modèle 60x plus petit et sans ajustement fin. Une évaluation hors distribution sur un document publié après la date de coupure d'entraînement du modèle confirme que ces gains ne sont pas des artéfacts de mémorisation, atteignant 0,723 bpb sur un texte non vu.

English

We present Nacrith, a lossless compression system that combines a 135M-parameter transformer language model (SmolLM2-135M) with an ensemble of lightweight online predictors and a 32-bit arithmetic coder. Beyond the base LLM-plus-arithmetic-coding paradigm, Nacrith introduces several contributions: (1) a CDF precision upgrade from 2^16 to 2^24 that eliminates ~75% of quantization overhead caused by minimum-probability floors in large vocabularies; (2) a token-level N-gram model for fast local predictions; (3) an adaptive log-space bias head correcting per-document LLM errors via online gradient descent; (4) confidence-based LLM skip for accelerating highly predictable tokens; (5) a hybrid binary format (NC06) extending neural compression to arbitrary binary files--to our knowledge a first among LLM-based compressors; (6) a llama.cpp inference backend achieving ~7x faster single-token decode than PyTorch; (7) parallel multi-GPU compression across up to 8 workers; and (8) native KV cache sliding window reducing per-slide cost by ~37x. The system requires only ~500 MB of GGUF weights and ~1.2 GB VRAM per worker, running on consumer GPUs. On alice29.txt (Canterbury Corpus, 152 KB), Nacrith achieves 0.918 bits per byte (bpb)--outperforming gzip by 3.1x, bzip2 by 2.5x, CMIX v21 by 44%, and ts_zip by 20%, while compressing below the 0th-, 1st-, and 2nd-order byte-level Shannon entropy bounds. On enwik8 (100 MB), Nacrith achieves 0.9389 bpb (11.74%), surpassing ts_zip (~1.11 bpb) by 15% and FineZip (1.024 bpb) by 8% despite using a 60x smaller model with no fine-tuning. An out-of-distribution evaluation on a document published after the model's training cutoff confirms these gains are not memorization artifacts, achieving 0.723 bpb on unseen text.

Nacrith : Compression Neurale Sans Perte par Modélisation de Contexte d'Ensemble et Codage CDF de Haute Précision

Nacrith: Neural Lossless Compression via Ensemble Context Modeling and High-Precision CDF Coding

Résumé

Support