Nacrith: Compressione Neurale Senza Perdite tramite Modellazione Contestuale d'Insieme e Codifica CDF ad Alta Precisione

Abstract

Presentiamo Nacrith, un sistema di compressione senza perdita che combina un modello linguistico trasformatore da 135 milioni di parametri (SmolLM2-135M) con un ensemble di predittori leggeri online e un codificatore aritmetico a 32 bit. Oltre al paradigma base LLM più codifica aritmetica, Nacrith introduce diversi contributi: (1) un aggiornamento della precisione della CDF da 2^16 a 2^24 che elimina circa il 75% del sovraccarico di quantizzazione causato dai pavimenti di probabilità minima in vocabolari ampi; (2) un modello N-gram a livello di token per previsioni locali veloci; (3) una testa di bias adattiva in spazio logaritmico che corregge gli errori LLM per documento tramite discesa del gradiente online; (4) un salto LLM basato sulla confidenza per accelerare i token altamente prevedibili; (5) un formato binario ibrido (NC06) che estende la compressione neurale a file binari arbitrari – a nostra conoscenza, una novità tra i compressori basati su LLM; (6) un backend di inferenza llama.cpp che raggiunge una decodifica per token circa 7 volte più veloce rispetto a PyTorch; (7) compressione parallela multi-GPU fino a 8 worker; e (8) una finestra scorrevole nativa per la KV cache che riduce il costo per scorrimento di circa 37 volte. Il sistema richiede solo circa 500 MB di pesi GGUF e circa 1,2 GB di VRAM per worker, funzionando su GPU consumer. Sul file alice29.txt (Canterbury Corpus, 152 KB), Nacrith raggiunge 0,918 bit per byte (bpb) – superando gzip di 3,1 volte, bzip2 di 2,5 volte, CMIX v21 del 44% e ts_zip del 20%, comprimendo al di sotto dei limiti di entropia di Shannon di ordine zero, primo e secondo a livello di byte. Su enwik8 (100 MB), Nacrith raggiunge 0,9389 bpb (11,74%), superando ts_zip (~1,11 bpb) del 15% e FineZip (1,024 bpb) dell'8%, nonostante utilizzi un modello 60 volte più piccolo e nessuna messa a punto. Una valutazione su dati non in distribuzione, effettuata su un documento pubblicato dopo la data di cutoff dell'addestramento del modello, conferma che questi vantaggi non sono artefatti di memorizzazione, raggiungendo 0,723 bpb su testo non visto.

English

We present Nacrith, a lossless compression system that combines a 135M-parameter transformer language model (SmolLM2-135M) with an ensemble of lightweight online predictors and a 32-bit arithmetic coder. Beyond the base LLM-plus-arithmetic-coding paradigm, Nacrith introduces several contributions: (1) a CDF precision upgrade from 2^16 to 2^24 that eliminates ~75% of quantization overhead caused by minimum-probability floors in large vocabularies; (2) a token-level N-gram model for fast local predictions; (3) an adaptive log-space bias head correcting per-document LLM errors via online gradient descent; (4) confidence-based LLM skip for accelerating highly predictable tokens; (5) a hybrid binary format (NC06) extending neural compression to arbitrary binary files--to our knowledge a first among LLM-based compressors; (6) a llama.cpp inference backend achieving ~7x faster single-token decode than PyTorch; (7) parallel multi-GPU compression across up to 8 workers; and (8) native KV cache sliding window reducing per-slide cost by ~37x. The system requires only ~500 MB of GGUF weights and ~1.2 GB VRAM per worker, running on consumer GPUs. On alice29.txt (Canterbury Corpus, 152 KB), Nacrith achieves 0.918 bits per byte (bpb)--outperforming gzip by 3.1x, bzip2 by 2.5x, CMIX v21 by 44%, and ts_zip by 20%, while compressing below the 0th-, 1st-, and 2nd-order byte-level Shannon entropy bounds. On enwik8 (100 MB), Nacrith achieves 0.9389 bpb (11.74%), surpassing ts_zip (~1.11 bpb) by 15% and FineZip (1.024 bpb) by 8% despite using a 60x smaller model with no fine-tuning. An out-of-distribution evaluation on a document published after the model's training cutoff confirms these gains are not memorization artifacts, achieving 0.723 bpb on unseen text.

Nacrith: Compressione Neurale Senza Perdite tramite Modellazione Contestuale d'Insieme e Codifica CDF ad Alta Precisione

Nacrith: Neural Lossless Compression via Ensemble Context Modeling and High-Precision CDF Coding

Abstract

Support