Compresión por Microdifusión: Desenfoque Tweedie de Árbol Binario para la Estimación de Probabilidades en Tiempo Real
Micro-Diffusion Compression -- Binary Tree Tweedie Denoising for Online Probability Estimation
March 9, 2026
Autores: Roberto Tacconelli
cs.AI
Resumen
Presentamos Midicoth, un sistema de compresión sin pérdidas que incorpora una capa de eliminación de ruido por micro-difusión para mejorar las estimaciones de probabilidad generadas por modelos estadísticos adaptativos. En compresores como Predicción por Correspondencia Parcial (PPM), las estimaciones de probabilidad se suavizan mediante un previo para manejar observaciones dispersas. Cuando los contextos se han observado solo unas pocas veces, este previo domina la predicción y genera distribuciones significativamente más planas que la distribución real de la fuente, lo que conduce a ineficiencias en la compresión. Midicoth aborda esta limitación tratando el suavizado previo como un proceso de contracción y aplicando un paso de eliminación de ruido inverso que corrige las probabilidades predichas utilizando estadísticas de calibración empírica. Para que esta corrección sea eficiente en datos, el método descompone cada predicción de byte en una jerarquía de decisiones binarias a lo largo de un árbol binario. Esto convierte un único problema de calibración entre 256 opciones en una secuencia de tareas de calibración binaria, permitiendo la estimación fiable de términos de corrección a partir de un número relativamente pequeño de observaciones. El proceso de eliminación de ruido se aplica en múltiples pasos sucesivos, permitiendo que cada etapa refine los errores de predicción residuales dejados por la anterior. La capa de micro-difusión opera como una etapa de calibración posterior ligera aplicada después de combinar todas las predicciones del modelo, lo que le permite corregir sesgos sistemáticos en la distribución de probabilidad final. Midicoth combina cinco componentes completamente en línea: un modelo PPM adaptativo, un modelo de coincidencia de largo alcance, un modelo léxico basado en árboles de prefijos, un modelo de contexto de alto orden y el eliminador de ruido por micro-difusión aplicado como etapa final.
English
We present Midicoth, a lossless compression system that introduces a micro-diffusion denoising layer for improving probability estimates produced by adaptive statistical models. In compressors such as Prediction by Partial Matching (PPM), probability estimates are smoothed by a prior to handle sparse observations. When contexts have been seen only a few times, this prior dominates the prediction and produces distributions that are significantly flatter than the true source distribution, leading to compression inefficiency. Midicoth addresses this limitation by treating prior smoothing as a shrinkage process and applying a reverse denoising step that corrects predicted probabilities using empirical calibration statistics. To make this correction data-efficient, the method decomposes each byte prediction into a hierarchy of binary decisions along a bitwise tree. This converts a single 256-way calibration problem into a sequence of binary calibration tasks, enabling reliable estimation of correction terms from relatively small numbers of observations. The denoising process is applied in multiple successive steps, allowing each stage to refine residual prediction errors left by the previous one. The micro-diffusion layer operates as a lightweight post-blend calibration stage applied after all model predictions have been combined, allowing it to correct systematic biases in the final probability distribution. Midicoth combines five fully online components: an adaptive PPM model, a long-range match model, a trie-based word model, a high-order context model, and the micro-diffusion denoiser applied as the final stage.