Micro-Diffusiecompressie — Binaire Boom Tweedie-ruisonderdrukking voor Online Waarschijnlijkheidsschatting
Micro-Diffusion Compression -- Binary Tree Tweedie Denoising for Online Probability Estimation
March 9, 2026
Auteurs: Roberto Tacconelli
cs.AI
Samenvatting
Wij presenteren Midicoth, een verliesloos compressiesysteem dat een micro-diffusie-denoisinglaag introduceert om de door adaptieve statistische modellen gegenereerde waarschijnlijkheidsschattingen te verbeteren. In compressoren zoals Prediction by Partial Matching (PPM) worden waarschijnlijkheidsschattingen gladgestreken door een prior om schaarse waarnemingen te hanteren. Wanneer contexten slechts enkele keren zijn waargenomen, domineert deze prior de voorspelling en produceert deze verdelingen die aanzienlijk platter zijn dan de werkelijke brondistributie, wat leidt tot compressie-inefficiëntie. Midicoth lost deze beperking op door prior-gladstelling te behandelen als een krimpproces en een omgekeerde denoisingstap toe te passen die de voorspelde kansen corrigeert met behulp van empirische kalibratiestatistieken. Om deze correctie data-efficiënt te maken, deelt de methode elke bytevoorspelling op in een hiërarchie van binaire beslissingen langs een bitgewijs boomstructuur. Dit zet een enkel 256-waardig kalibratieprobleem om in een reeks binaire kalibratietaken, waardoor betrouwbare schattingen van correctietermen mogelijk worden met relatief weinig waarnemingen. Het denoisingproces wordt in meerdere opeenvolgende stappen toegepast, waardoor elke fase resterende voorspellingsfouten van de vorige fase kan verfijnen. De micro-diffusielaag functioneert als een lichtgewicht kalibratiefase die na het combineren van alle modelvoorspellingen wordt toegepast, waardoor deze systematische vertekeningen in de uiteindelijke kansverdeling kan corrigeren. Midicoth combineert vijf volledig online componenten: een adaptief PPM-model, een long-range match-model, een op een trie gebaseerd woordmodel, een high-order contextmodel en de micro-diffusie-denoiser die als laatste fase wordt toegepast.
English
We present Midicoth, a lossless compression system that introduces a micro-diffusion denoising layer for improving probability estimates produced by adaptive statistical models. In compressors such as Prediction by Partial Matching (PPM), probability estimates are smoothed by a prior to handle sparse observations. When contexts have been seen only a few times, this prior dominates the prediction and produces distributions that are significantly flatter than the true source distribution, leading to compression inefficiency. Midicoth addresses this limitation by treating prior smoothing as a shrinkage process and applying a reverse denoising step that corrects predicted probabilities using empirical calibration statistics. To make this correction data-efficient, the method decomposes each byte prediction into a hierarchy of binary decisions along a bitwise tree. This converts a single 256-way calibration problem into a sequence of binary calibration tasks, enabling reliable estimation of correction terms from relatively small numbers of observations. The denoising process is applied in multiple successive steps, allowing each stage to refine residual prediction errors left by the previous one. The micro-diffusion layer operates as a lightweight post-blend calibration stage applied after all model predictions have been combined, allowing it to correct systematic biases in the final probability distribution. Midicoth combines five fully online components: an adaptive PPM model, a long-range match model, a trie-based word model, a high-order context model, and the micro-diffusion denoiser applied as the final stage.