Накрит: нейросетевое сжатие без потерь через ансамблевое контекстное моделирование и высокоточное кодирование функций распределения вероятностей

Аннотация

Мы представляем Nacrith — систему сжатия без потерь, которая объединяет трансформерную языковую модель на 135 млн параметров (SmolLM2-135M) с ансамблем легковесных онлайн-предикторов и 32-битным арифметическим кодером. Помимо базовой парадигмы LLM плюс арифметическое кодирование, Nacrith вносит несколько нововведений: (1) повышение точности CDF с 2^16 до 2^24, что устраняет ~75% потерь квантования, вызванных минимальными порогами вероятностей в больших словарях; (2) N-граммная модель на уровне токенов для быстрых локальных предсказаний; (3) адаптивная функция смещения в логарифмическом пространстве, корректирующая ошибки LLM для каждого документа с помощью онлайн-градиентного спуска; (4) пропуск LLM по уверенности для ускорения обработки высокопредсказуемых токенов; (5) гибридный бинарный формат (NC06), расширяющий нейросжатие на произвольные бинарные файлы — насколько нам известно, впервые среди компрессоров на основе LLM; (6) бэкенд вывода llama.cpp, обеспечивающий ~7-кратное ускорение декодирования одного токена по сравнению с PyTorch; (7) параллельное сжатие на нескольких GPU с использованием до 8 воркеров; и (8) встроенное скользящее окно кэша KV, снижающее стоимость на кадр в ~37 раз. Система требует всего ~500 МБ весов GGUF и ~1,2 ГБ видеопамяти на воркер, работая на потребительских GPU. На файле alice29.txt (Кентерберийский корпус, 152 КБ) Nacrith достигает 0,918 бит на байт (bpb) — превосходя gzip в 3,1 раза, bzip2 в 2,5 раза, CMIX v21 на 44% и ts_zip на 20%, при этом сжимая данные ниже границ энтропии Шеннона нулевого, первого и второго порядков на уровне байтов. На enwik8 (100 МБ) Nacrith достигает 0,9389 bpb (11,74%), превосходя ts_zip (~1,11 bpb) на 15% и FineZip (1,024 bpb) на 8%, несмотря на использование модели в 60 раз меньше и без тонкой настройки. Оценка на данных вне распределения (документ, опубликованный после даты обучения модели) подтверждает, что достижения не являются артефактами запоминания: на неизвестном тексте достигнуто 0,723 bpb.

English

We present Nacrith, a lossless compression system that combines a 135M-parameter transformer language model (SmolLM2-135M) with an ensemble of lightweight online predictors and a 32-bit arithmetic coder. Beyond the base LLM-plus-arithmetic-coding paradigm, Nacrith introduces several contributions: (1) a CDF precision upgrade from 2^16 to 2^24 that eliminates ~75% of quantization overhead caused by minimum-probability floors in large vocabularies; (2) a token-level N-gram model for fast local predictions; (3) an adaptive log-space bias head correcting per-document LLM errors via online gradient descent; (4) confidence-based LLM skip for accelerating highly predictable tokens; (5) a hybrid binary format (NC06) extending neural compression to arbitrary binary files--to our knowledge a first among LLM-based compressors; (6) a llama.cpp inference backend achieving ~7x faster single-token decode than PyTorch; (7) parallel multi-GPU compression across up to 8 workers; and (8) native KV cache sliding window reducing per-slide cost by ~37x. The system requires only ~500 MB of GGUF weights and ~1.2 GB VRAM per worker, running on consumer GPUs. On alice29.txt (Canterbury Corpus, 152 KB), Nacrith achieves 0.918 bits per byte (bpb)--outperforming gzip by 3.1x, bzip2 by 2.5x, CMIX v21 by 44%, and ts_zip by 20%, while compressing below the 0th-, 1st-, and 2nd-order byte-level Shannon entropy bounds. On enwik8 (100 MB), Nacrith achieves 0.9389 bpb (11.74%), surpassing ts_zip (~1.11 bpb) by 15% and FineZip (1.024 bpb) by 8% despite using a 60x smaller model with no fine-tuning. An out-of-distribution evaluation on a document published after the model's training cutoff confirms these gains are not memorization artifacts, achieving 0.723 bpb on unseen text.

Накрит: нейросетевое сжатие без потерь через ансамблевое контекстное моделирование и высокоточное кодирование функций распределения вероятностей

Nacrith: Neural Lossless Compression via Ensemble Context Modeling and High-Precision CDF Coding

Аннотация

Support