Nacrith: Compressão Neural sem Perdas via Modelagem de Contexto por Conjunto e Codificação de CDF de Alta Precisão

Resumo

Apresentamos o Nacrith, um sistema de compressão sem perdas que combina um modelo de linguagem transformador de 135 milhões de parâmetros (SmolLM2-135M) com um conjunto de preditores leves online e um codificador aritmético de 32 bits. Para além do paradigma base de LLM mais codificação aritmética, o Nacrith introduz várias contribuições: (1) uma atualização da precisão da CDF de 2^16 para 2^24 que elimina ~75% da sobrecarga de quantização causada pelos pisos de probabilidade mínima em vocabulários grandes; (2) um modelo de N-gramas a nível de token para previsões locais rápidas; (3) um cabeçalho de ajuste adaptativo em espaço logarítmico que corrige erros do LLM por documento via descida de gradiente online; (4) um salto do LLM baseado em confiança para acelerar tokens altamente previsíveis; (5) um formato binário híbrido (NC06) que estende a compressão neural a ficheiros binários arbitrários – até onde sabemos, uma primazia entre compressores baseados em LLM; (6) um backend de inferência llama.cpp que alcança uma descodificação ~7x mais rápida por token única do que o PyTorch; (7) compressão paralela multi-GPU em até 8 workers; e (8) uma janela deslizante nativa da cache KV que reduz o custo por deslize em ~37x. O sistema requer apenas ~500 MB de pesos GGUF e ~1,2 GB de VRAM por worker, executando em GPUs de consumo. No ficheiro alice29.txt (Corpus de Canterbury, 152 KB), o Nacrith alcança 0,918 bits por byte (bpb) – superando o gzip em 3,1x, o bzip2 em 2,5x, o CMIX v21 em 44% e o ts_zip em 20%, ao mesmo tempo que comprime abaixo dos limites de entropia de Shannon de ordem zero, primeira e segunda a nível de byte. No enwik8 (100 MB), o Nacrith alcança 0,9389 bpb (11,74%), superando o ts_zip (~1,11 bpb) em 15% e o FineZip (1,024 bpb) em 8%, apesar de usar um modelo 60x menor sem qualquer fine-tuning. Uma avaliação fora da distribuição num documento publicado após o corte de treino do modelo confirma que estes ganhos não são artefactos de memorização, alcançando 0,723 bpb em texto não visto.

English

We present Nacrith, a lossless compression system that combines a 135M-parameter transformer language model (SmolLM2-135M) with an ensemble of lightweight online predictors and a 32-bit arithmetic coder. Beyond the base LLM-plus-arithmetic-coding paradigm, Nacrith introduces several contributions: (1) a CDF precision upgrade from 2^16 to 2^24 that eliminates ~75% of quantization overhead caused by minimum-probability floors in large vocabularies; (2) a token-level N-gram model for fast local predictions; (3) an adaptive log-space bias head correcting per-document LLM errors via online gradient descent; (4) confidence-based LLM skip for accelerating highly predictable tokens; (5) a hybrid binary format (NC06) extending neural compression to arbitrary binary files--to our knowledge a first among LLM-based compressors; (6) a llama.cpp inference backend achieving ~7x faster single-token decode than PyTorch; (7) parallel multi-GPU compression across up to 8 workers; and (8) native KV cache sliding window reducing per-slide cost by ~37x. The system requires only ~500 MB of GGUF weights and ~1.2 GB VRAM per worker, running on consumer GPUs. On alice29.txt (Canterbury Corpus, 152 KB), Nacrith achieves 0.918 bits per byte (bpb)--outperforming gzip by 3.1x, bzip2 by 2.5x, CMIX v21 by 44%, and ts_zip by 20%, while compressing below the 0th-, 1st-, and 2nd-order byte-level Shannon entropy bounds. On enwik8 (100 MB), Nacrith achieves 0.9389 bpb (11.74%), surpassing ts_zip (~1.11 bpb) by 15% and FineZip (1.024 bpb) by 8% despite using a 60x smaller model with no fine-tuning. An out-of-distribution evaluation on a document published after the model's training cutoff confirms these gains are not memorization artifacts, achieving 0.723 bpb on unseen text.

Nacrith: Compressão Neural sem Perdas via Modelagem de Contexto por Conjunto e Codificação de CDF de Alta Precisão

Nacrith: Neural Lossless Compression via Ensemble Context Modeling and High-Precision CDF Coding

Resumo

Support