ChatPaper.aiChatPaper

Микродиффузионное сжатие — денойзинг методом бинарного дерева Твиди для онлайн-оценки вероятностей

Micro-Diffusion Compression -- Binary Tree Tweedie Denoising for Online Probability Estimation

March 9, 2026
Авторы: Roberto Tacconelli
cs.AI

Аннотация

Мы представляем Midicoth — систему сжатия без потерь, которая вводит микродиффузионный слой шумоподавления для улучшения вероятностных оценок, генерируемых адаптивными статистическими моделями. В таких компрессорах, как Prediction by Partial Matching (PPM), вероятностные оценки сглаживаются с помощью априорного распределения для обработки разреженных наблюдений. Когда контексты встречались лишь несколько раз, это априорное распределение доминирует в прогнозировании и создаёт распределения, значительно более плоские, чем истинное распределение источника, что приводит к неэффективности сжатия. Midicoth преодолевает это ограничение, трактуя априорное сглаживание как процесс сжатия и применяя обратный шаг шумоподавления, который корректирует предсказанные вероятности с использованием эмпирической калибровочной статистики. Для обеспечения эффективности этой коррекции по данным метод декомпозирует каждый байтовый прогноз в иерархию бинарных решений вдоль битового дерева. Это преобразует единую задачу 256-классовой калибровки в последовательность бинарных калибровочных задач, позволяя надёжно оценивать корректирующие члены даже по относительно малому числу наблюдений. Процесс шумоподавления применяется в несколько последовательных шагов, позволяя каждому этапу уточнять остаточные ошибки прогноза, оставшиеся от предыдущего. Микродиффузионный слой функционирует как лёгкая калибровочная стадия пост-смешивания, применяемая после объединения всех модельных прогнозов, что позволяет ему корректировать систематические смещения итогового вероятностного распределения. Midicoth объединяет пять полностью онлайн-компонентов: адаптивную PPM-модель, модель долгосрочного соответствия, модель слов на основе префиксного дерева, модель контекстов высокого порядка и микродиффузионный дениойзер, применяемый на финальном этапе.
English
We present Midicoth, a lossless compression system that introduces a micro-diffusion denoising layer for improving probability estimates produced by adaptive statistical models. In compressors such as Prediction by Partial Matching (PPM), probability estimates are smoothed by a prior to handle sparse observations. When contexts have been seen only a few times, this prior dominates the prediction and produces distributions that are significantly flatter than the true source distribution, leading to compression inefficiency. Midicoth addresses this limitation by treating prior smoothing as a shrinkage process and applying a reverse denoising step that corrects predicted probabilities using empirical calibration statistics. To make this correction data-efficient, the method decomposes each byte prediction into a hierarchy of binary decisions along a bitwise tree. This converts a single 256-way calibration problem into a sequence of binary calibration tasks, enabling reliable estimation of correction terms from relatively small numbers of observations. The denoising process is applied in multiple successive steps, allowing each stage to refine residual prediction errors left by the previous one. The micro-diffusion layer operates as a lightweight post-blend calibration stage applied after all model predictions have been combined, allowing it to correct systematic biases in the final probability distribution. Midicoth combines five fully online components: an adaptive PPM model, a long-range match model, a trie-based word model, a high-order context model, and the micro-diffusion denoiser applied as the final stage.
PDF01March 12, 2026