ChatPaper.aiChatPaper

Mikro-Diffusionskompression – Binärbaum-Tweedie-Entrauschung zur Online-Wahrscheinlichkeitsschätzung

Micro-Diffusion Compression -- Binary Tree Tweedie Denoising for Online Probability Estimation

March 9, 2026
Autoren: Roberto Tacconelli
cs.AI

Zusammenfassung

Wir stellen Midicoth vor, ein verlustfreies Kompressionssystem, das eine Mikrodiffusions-Entrauschungsschicht zur Verbesserung von Wahrscheinlichkeitsschätzungen einführt, die von adaptiven statistischen Modellen erzeugt werden. In Kompressoren wie Prediction by Partial Matching (PPM) werden Wahrscheinlichkeitsschätzungen durch einen Prior geglättet, um spärliche Beobachtungen zu handhaben. Wenn Kontexte nur wenige Male beobachtet wurden, dominiert dieser Prior die Vorhersage und erzeugt Verteilungen, die erheblich flacher sind als die tatsächliche Quellverteilung, was zu Kompressionsineffizienz führt. Midicoth behebt diese Einschränkung, indem es die Prior-Glättung als Schrumpfungsprozess behandelt und einen umgekehrten Entrauschungsschritt anwendet, der die vorhergesagten Wahrscheinlichkeiten anhand empirischer Kalibrierungsstatistiken korrigiert. Um diese Korrektion dateneffizient zu gestalten, zerlegt die Methode jede Byte-Vorhersage in eine Hierarchie binärer Entscheidungen entlang eines bitweisen Baums. Dadurch wird ein einzelnes 256-stufiges Kalibrierungsproblem in eine Abfolge binärer Kalibrierungsaufgaben umgewandelt, was eine zuverlässige Schätzung der Korrekturterme aus relativ wenigen Beobachtungen ermöglicht. Der Entrauschungsprozess wird in mehreren aufeinanderfolgenden Schritten angewendet, sodass jede Stufe verbleibende Vorhersagefehler der vorherigen Stufe verfeinern kann. Die Mikrodiffusionsschicht fungiert als leichtgewichtige Kalibrierungsstufe nach der endgültigen Kombination aller Modellvorhersagen, wodurch sie systematische Verzerrungen in der endgültigen Wahrscheinlichkeitsverteilung korrigieren kann. Midicoth kombiniert fünf vollständig online arbeitende Komponenten: ein adaptives PPM-Modell, ein Modell für Langstrecken-Übereinstimmungen, ein triebasiertes Wortmodell, ein Kontextmodell hoher Ordnung und den Mikrodiffusions-Entstörer als abschließende Stufe.
English
We present Midicoth, a lossless compression system that introduces a micro-diffusion denoising layer for improving probability estimates produced by adaptive statistical models. In compressors such as Prediction by Partial Matching (PPM), probability estimates are smoothed by a prior to handle sparse observations. When contexts have been seen only a few times, this prior dominates the prediction and produces distributions that are significantly flatter than the true source distribution, leading to compression inefficiency. Midicoth addresses this limitation by treating prior smoothing as a shrinkage process and applying a reverse denoising step that corrects predicted probabilities using empirical calibration statistics. To make this correction data-efficient, the method decomposes each byte prediction into a hierarchy of binary decisions along a bitwise tree. This converts a single 256-way calibration problem into a sequence of binary calibration tasks, enabling reliable estimation of correction terms from relatively small numbers of observations. The denoising process is applied in multiple successive steps, allowing each stage to refine residual prediction errors left by the previous one. The micro-diffusion layer operates as a lightweight post-blend calibration stage applied after all model predictions have been combined, allowing it to correct systematic biases in the final probability distribution. Midicoth combines five fully online components: an adaptive PPM model, a long-range match model, a trie-based word model, a high-order context model, and the micro-diffusion denoiser applied as the final stage.
PDF01March 12, 2026