Nacrith: アンサンブル文脈モデリングと高精度CDF符号化による神経網無損失圧縮
Nacrith: Neural Lossless Compression via Ensemble Context Modeling and High-Precision CDF Coding
February 23, 2026
著者: Roberto Tacconelli
cs.AI
要旨
本論文では、135Mパラメータのトランスフォーマー言語モデル(SmolLM2-135M)と、軽量なオンライン予測器のアンサンブル、および32ビット算術符号器を組み合わせた、ロスレス圧縮システム「Nacrith」を提案する。基本となるLLMと算術符号のパラダイムを超えて、Nacrithは以下の複数の貢献をもたらす:(1) CDFの精度を2^16から2^24に向上させ、大規模語彙における最小確率フロアによる量子化オーバーヘッドを約75%削減;(2) 高速な局所予測のためのトークンレベルN-gramモデル;(3) オンライン勾配降下法により文書単位のLLM誤差を補正する適応型対数空間バイアスヘッド;(4) 予測可能性の高いトークンを高速化する信頼度ベースのLLMスキップ;(5) ニューラル圧縮を任意のバイナリファイルに拡張するハイブリッドバイナリ形式(NC06)——我々の知る限りLLMベース圧縮器では初の試み;(6) llama.cpp推論バックエンドによる、PyTorch比~7倍高速なシングルトークンデコード;(7) 最大8ワーカーによる並列マルチGPU圧縮;(8) スライドごとのコストを約37分の1に削減するネイティブKVキャッシュスライディングウィンドウ。本システムは約500MBのGGUF重みとワーカーあたり約1.2GBのVRAMのみを必要とし、コンシューマー向けGPUで動作する。
Canterbury Corpusのalice29.txt(152KB)において、Nacrithは0.918ビット/バイト(bpb)を達成——gzipの3.1倍、bzip2の2.5倍、CMIX v21より44%、ts_zipより20%優れ、0次、1次、2次のバイトレベルシャノンエントロピー下限を下回る圧縮を実現した。enwik8(100MB)では0.9389 bpb(11.74%)を達成し、ts_zip(約1.11 bpb)を15%、FineZip(1.024 bpb)を8%上回った(これは60倍小さなモデルを使用し、ファインチューニングなしでの結果である)。モデルの学習カットオフ後に公開された文書を用いた分布外評価では、これらの性能向上が記憶の産物ではないことを確認し、未見テキストで0.723 bpbを達成した。
English
We present Nacrith, a lossless compression system that combines a 135M-parameter transformer language model (SmolLM2-135M) with an ensemble of lightweight online predictors and a 32-bit arithmetic coder. Beyond the base LLM-plus-arithmetic-coding paradigm, Nacrith introduces several contributions: (1) a CDF precision upgrade from 2^16 to 2^24 that eliminates ~75% of quantization overhead caused by minimum-probability floors in large vocabularies; (2) a token-level N-gram model for fast local predictions; (3) an adaptive log-space bias head correcting per-document LLM errors via online gradient descent; (4) confidence-based LLM skip for accelerating highly predictable tokens; (5) a hybrid binary format (NC06) extending neural compression to arbitrary binary files--to our knowledge a first among LLM-based compressors; (6) a llama.cpp inference backend achieving ~7x faster single-token decode than PyTorch; (7) parallel multi-GPU compression across up to 8 workers; and (8) native KV cache sliding window reducing per-slide cost by ~37x. The system requires only ~500 MB of GGUF weights and ~1.2 GB VRAM per worker, running on consumer GPUs.
On alice29.txt (Canterbury Corpus, 152 KB), Nacrith achieves 0.918 bits per byte (bpb)--outperforming gzip by 3.1x, bzip2 by 2.5x, CMIX v21 by 44%, and ts_zip by 20%, while compressing below the 0th-, 1st-, and 2nd-order byte-level Shannon entropy bounds. On enwik8 (100 MB), Nacrith achieves 0.9389 bpb (11.74%), surpassing ts_zip (~1.11 bpb) by 15% and FineZip (1.024 bpb) by 8% despite using a 60x smaller model with no fine-tuning. An out-of-distribution evaluation on a document published after the model's training cutoff confirms these gains are not memorization artifacts, achieving 0.723 bpb on unseen text.