Nacrith: Compresión Neural sin Pérdidas mediante Modelado de Contexto por Conjunto y Codificación de CDF de Alta Precisión

Resumen

Presentamos Nacrith, un sistema de compresión sin pérdidas que combina un modelo de lenguaje transformador de 135 millones de parámetros (SmolLM2-135M) con un conjunto de predictores ligeros en línea y un codificador aritmético de 32 bits. Más allá del paradigma básico de LLM más codificación aritmética, Nacrith introduce varias contribuciones: (1) una actualización de la precisión de la CDF de 2^16 a 2^24 que elimina ~75% de la sobrecarga de cuantificación causada por los pisos de probabilidad mínima en vocabularios grandes; (2) un modelo N-grama a nivel de token para predicciones locales rápidas; (3) una cabeza de sesgo adaptativa en espacio logarítmico que corrige errores del LLM por documento mediante descenso de gradiente en línea; (4) un salto del LLM basado en confianza para acelerar tokens altamente predecibles; (5) un formato binario híbrido (NC06) que extiende la compresión neuronal a archivos binarios arbitrarios—hasta donde sabemos, una primicia entre los compresores basados en LLM; (6) un backend de inferencia llama.cpp que logra una decodificación ~7 veces más rápida por token que PyTorch; (7) compresión paralela multi-GPU con hasta 8 trabajadores; y (8) una ventana deslizante nativa de caché KV que reduce el costo por deslizamiento en ~37x. El sistema requiere solo ~500 MB de pesos GGUF y ~1.2 GB de VRAM por trabajador, ejecutándose en GPUs de consumo. En alice29.txt (Corpus de Canterbury, 152 KB), Nacrith logra 0.918 bits por byte (bpb)—superando a gzip por 3.1x, a bzip2 por 2.5x, a CMIX v21 por 44%, y a ts_zip por 20%, mientras comprime por debajo de los límites de entropía de Shannon de byte de orden 0, 1 y 2. En enwik8 (100 MB), Nacrith alcanza 0.9389 bpb (11.74%), superando a ts_zip (~1.11 bpb) por 15% y a FineZip (1.024 bpb) por 8%, a pesar de utilizar un modelo 60 veces más pequeño y sin ajuste fino. Una evaluación fuera de distribución en un documento publicado después del corte de entrenamiento del modelo confirma que estas ganancias no son artefactos de memorización, logrando 0.723 bpb en texto no visto.

English

We present Nacrith, a lossless compression system that combines a 135M-parameter transformer language model (SmolLM2-135M) with an ensemble of lightweight online predictors and a 32-bit arithmetic coder. Beyond the base LLM-plus-arithmetic-coding paradigm, Nacrith introduces several contributions: (1) a CDF precision upgrade from 2^16 to 2^24 that eliminates ~75% of quantization overhead caused by minimum-probability floors in large vocabularies; (2) a token-level N-gram model for fast local predictions; (3) an adaptive log-space bias head correcting per-document LLM errors via online gradient descent; (4) confidence-based LLM skip for accelerating highly predictable tokens; (5) a hybrid binary format (NC06) extending neural compression to arbitrary binary files--to our knowledge a first among LLM-based compressors; (6) a llama.cpp inference backend achieving ~7x faster single-token decode than PyTorch; (7) parallel multi-GPU compression across up to 8 workers; and (8) native KV cache sliding window reducing per-slide cost by ~37x. The system requires only ~500 MB of GGUF weights and ~1.2 GB VRAM per worker, running on consumer GPUs. On alice29.txt (Canterbury Corpus, 152 KB), Nacrith achieves 0.918 bits per byte (bpb)--outperforming gzip by 3.1x, bzip2 by 2.5x, CMIX v21 by 44%, and ts_zip by 20%, while compressing below the 0th-, 1st-, and 2nd-order byte-level Shannon entropy bounds. On enwik8 (100 MB), Nacrith achieves 0.9389 bpb (11.74%), surpassing ts_zip (~1.11 bpb) by 15% and FineZip (1.024 bpb) by 8% despite using a 60x smaller model with no fine-tuning. An out-of-distribution evaluation on a document published after the model's training cutoff confirms these gains are not memorization artifacts, achieving 0.723 bpb on unseen text.

Nacrith: Compresión Neural sin Pérdidas mediante Modelado de Contexto por Conjunto y Codificación de CDF de Alta Precisión

Nacrith: Neural Lossless Compression via Ensemble Context Modeling and High-Precision CDF Coding

Resumen

Support