ChatPaper.aiChatPaper

Nacrith: Neurale Verliesloze Compressie via Ensemble Contextmodellering en CDF-codering met Hoge Precisie

Nacrith: Neural Lossless Compression via Ensemble Context Modeling and High-Precision CDF Coding

February 23, 2026
Auteurs: Roberto Tacconelli
cs.AI

Samenvatting

Wij presenteren Nacrith, een verliesloos compressiesysteem dat een transformer-taalmodel van 135M parameters (SmolLM2-135M) combineert met een ensemble van lichtgewicht online-voorspellers en een 32-bits rekenkundige codering. Naast het basisparadigma van LLM-plus-rekenkundige-codering introduceert Nacrith verschillende bijdragen: (1) een CDF-precisie-upgrade van 2^16 naar 2^24 die ~75% van de kwantiseringsoverhead elimineert, veroorzaakt door minimale-kans-drempels in grote vocabulaires; (2) een token-level N-grammodel voor snelle lokale voorspellingen; (3) een adaptieve bias-head in log-ruimte die LLM-fouten per document corrigeert via online gradient descent; (4) een op vertrouwen gebaseerde LLM-skip voor het versnellen van zeer voorspelbare tokens; (5) een hybride binair formaat (NC06) dat neurale compressie uitbreidt naar willekeurige binaire bestanden – voor zover wij weten een primeur onder LLM-gebaseerde compressors; (6) een llama.cpp inferentie-backend die ~7x snellere single-token-decodering bereikt dan PyTorch; (7) parallelle multi-GPU-compressie over maximaal 8 workers; en (8) een native KV-cache sliding window dat de kosten per slide met ~37x reduceert. Het systeem vereist slechts ~500 MB aan GGUF-gewichten en ~1.2 GB VRAM per worker, en draait op consumenten-GPU's. Op alice29.txt (Canterbury Corpus, 152 KB) behaalt Nacrith 0.918 bits per byte (bpb) – wat 3.1x beter is dan gzip, 2.5x beter dan bzip2, 44% beter dan CMIX v21 en 20% beter dan ts_zip, terwijl het comprimeert onder de 0e-, 1e- en 2e-orde byte-level Shannon-entropiegrenzen. Op enwik8 (100 MB) behaalt Nacrith 0.9389 bpb (11.74%), wat 15% beter is dan ts_zip (~1.11 bpb) en 8% beter dan FineZip (1.024 bpb), ondanks het gebruik van een 60x kleiner model zonder fine-tuning. Een out-of-distribution-evaluatie op een document gepubliceerd na de traindatum van het model bevestigt dat deze winsten geen gevolg zijn van memorisatie, met een resultaat van 0.723 bpb op ongeziene tekst.
English
We present Nacrith, a lossless compression system that combines a 135M-parameter transformer language model (SmolLM2-135M) with an ensemble of lightweight online predictors and a 32-bit arithmetic coder. Beyond the base LLM-plus-arithmetic-coding paradigm, Nacrith introduces several contributions: (1) a CDF precision upgrade from 2^16 to 2^24 that eliminates ~75% of quantization overhead caused by minimum-probability floors in large vocabularies; (2) a token-level N-gram model for fast local predictions; (3) an adaptive log-space bias head correcting per-document LLM errors via online gradient descent; (4) confidence-based LLM skip for accelerating highly predictable tokens; (5) a hybrid binary format (NC06) extending neural compression to arbitrary binary files--to our knowledge a first among LLM-based compressors; (6) a llama.cpp inference backend achieving ~7x faster single-token decode than PyTorch; (7) parallel multi-GPU compression across up to 8 workers; and (8) native KV cache sliding window reducing per-slide cost by ~37x. The system requires only ~500 MB of GGUF weights and ~1.2 GB VRAM per worker, running on consumer GPUs. On alice29.txt (Canterbury Corpus, 152 KB), Nacrith achieves 0.918 bits per byte (bpb)--outperforming gzip by 3.1x, bzip2 by 2.5x, CMIX v21 by 44%, and ts_zip by 20%, while compressing below the 0th-, 1st-, and 2nd-order byte-level Shannon entropy bounds. On enwik8 (100 MB), Nacrith achieves 0.9389 bpb (11.74%), surpassing ts_zip (~1.11 bpb) by 15% and FineZip (1.024 bpb) by 8% despite using a 60x smaller model with no fine-tuning. An out-of-distribution evaluation on a document published after the model's training cutoff confirms these gains are not memorization artifacts, achieving 0.723 bpb on unseen text.
PDF33March 28, 2026