ChatPaper.aiChatPaper

Micro-Diffusion Compression — Dénonçage Tweedie par Arbre Binaire pour l’Estimation de Probabilités en Ligne

Micro-Diffusion Compression -- Binary Tree Tweedie Denoising for Online Probability Estimation

March 9, 2026
Auteurs: Roberto Tacconelli
cs.AI

Résumé

Nous présentons Midicoth, un système de compression sans perte qui introduit une couche de débruitage par micro-diffusion pour améliorer les estimations de probabilité produites par des modèles statistiques adaptatifs. Dans les compresseurs tels que la Prédiction par Correspondance Partielle (PPM), les estimations de probabilité sont lissées par un a priori pour gérer les observations parcimonieuses. Lorsque les contextes n'ont été observés que quelques fois, cet a priori domine la prédiction et produit des distributions nettement plus plates que la distribution réelle de la source, entraînant une inefficacité de la compression. Midicoth résout cette limitation en traitant le lissage a priori comme un processus de rétrécissement et en appliquant une étape de débruitage inverse qui corrige les probabilités prédites à l'aide de statistiques de calibration empiriques. Pour rendre cette correction efficace en données, la méthode décompose chaque prédiction d'octet en une hiérarchie de décisions binaires le long d'un arbre binaire. Cela transforme un problème unique de calibration à 256 issues en une séquence de tâches de calibration binaire, permettant une estimation fiable des termes de correction à partir d'un nombre relativement faible d'observations. Le processus de débruitage est appliqué en plusieurs étapes successives, permettant à chaque stade d'affiner les erreurs de prédiction résiduelles laissées par le précédent. La couche de micro-diffusion fonctionne comme une étape de calibration post-mélange légère appliquée après la combinaison de toutes les prédictions du modèle, lui permettant de corriger les biais systématiques dans la distribution de probabilité finale. Midicoth combine cinq composants entièrement en ligne : un modèle PPM adaptatif, un modèle d'appariement à longue portée, un modèle de mots basé sur un arbre, un modèle de contexte d'ordre élevé et le débruitage par micro-diffusion appliqué comme étape finale.
English
We present Midicoth, a lossless compression system that introduces a micro-diffusion denoising layer for improving probability estimates produced by adaptive statistical models. In compressors such as Prediction by Partial Matching (PPM), probability estimates are smoothed by a prior to handle sparse observations. When contexts have been seen only a few times, this prior dominates the prediction and produces distributions that are significantly flatter than the true source distribution, leading to compression inefficiency. Midicoth addresses this limitation by treating prior smoothing as a shrinkage process and applying a reverse denoising step that corrects predicted probabilities using empirical calibration statistics. To make this correction data-efficient, the method decomposes each byte prediction into a hierarchy of binary decisions along a bitwise tree. This converts a single 256-way calibration problem into a sequence of binary calibration tasks, enabling reliable estimation of correction terms from relatively small numbers of observations. The denoising process is applied in multiple successive steps, allowing each stage to refine residual prediction errors left by the previous one. The micro-diffusion layer operates as a lightweight post-blend calibration stage applied after all model predictions have been combined, allowing it to correct systematic biases in the final probability distribution. Midicoth combines five fully online components: an adaptive PPM model, a long-range match model, a trie-based word model, a high-order context model, and the micro-diffusion denoiser applied as the final stage.
PDF01March 12, 2026