ChatPaper.aiChatPaper

Micro-Diffusion Compression -- Denoising Tweedie ad Albero Binario per la Stima Online delle Probabilità

Micro-Diffusion Compression -- Binary Tree Tweedie Denoising for Online Probability Estimation

March 9, 2026
Autori: Roberto Tacconelli
cs.AI

Abstract

Presentiamo Midicoth, un sistema di compressione senza perdita che introduce uno strato di micro-diffusione per la rimozione del rumore, finalizzato a migliorare le stime probabilistiche prodotte da modelli statistici adattivi. Nei compressori come la Predizione per Corrispondenza Parziale (PPM), le stime di probabilità vengono smussate da un prior per gestire osservazioni sparse. Quando i contesti sono stati osservati solo poche volte, questo prior domina la predizione e produce distribuzioni significativamente più piatte della distribuzione reale della sorgente, portando a inefficienze nella compressione. Midicoth affronta questa limitazione trattando lo smussamento del prior come un processo di shrinkage e applicando un passo inverso di rimozione del rumore che corregge le probabilità predette utilizzando statistiche di calibrazione empiriche. Per rendere questa correzione efficiente dal punto di vista dei dati, il metodo scompone ogni predizione di byte in una gerarchia di decisioni binarie lungo un albero bitwise. Ciò converte un singolo problema di calibrazione a 256 vie in una sequenza di compiti di calibrazione binaria, consentendo una stima affidabile dei termini di correzione da un numero relativamente piccolo di osservazioni. Il processo di denoising viene applicato in più passi successivi, permettendo a ogni stadio di affinare gli errori di predizione residui lasciati dal precedente. Lo strato di micro-diffusione opera come uno stadio di calibrazione post-blend leggero applicato dopo che tutte le predizioni del modello sono state combinate, consentendogli di correggere i bias sistematici nella distribuzione di probabilità finale. Midicoth combina cinque componenti completamente online: un modello PPM adattivo, un modello di corrispondenza a lungo raggio, un modello di parole basato su trie, un modello di contesto di ordine elevato e il denoiser a micro-diffusione applicato come stadio finale.
English
We present Midicoth, a lossless compression system that introduces a micro-diffusion denoising layer for improving probability estimates produced by adaptive statistical models. In compressors such as Prediction by Partial Matching (PPM), probability estimates are smoothed by a prior to handle sparse observations. When contexts have been seen only a few times, this prior dominates the prediction and produces distributions that are significantly flatter than the true source distribution, leading to compression inefficiency. Midicoth addresses this limitation by treating prior smoothing as a shrinkage process and applying a reverse denoising step that corrects predicted probabilities using empirical calibration statistics. To make this correction data-efficient, the method decomposes each byte prediction into a hierarchy of binary decisions along a bitwise tree. This converts a single 256-way calibration problem into a sequence of binary calibration tasks, enabling reliable estimation of correction terms from relatively small numbers of observations. The denoising process is applied in multiple successive steps, allowing each stage to refine residual prediction errors left by the previous one. The micro-diffusion layer operates as a lightweight post-blend calibration stage applied after all model predictions have been combined, allowing it to correct systematic biases in the final probability distribution. Midicoth combines five fully online components: an adaptive PPM model, a long-range match model, a trie-based word model, a high-order context model, and the micro-diffusion denoiser applied as the final stage.
PDF12March 26, 2026