Micro-Diffusion Compression -- Desnudação Tweedie em Árvore Binária para Estimativa de Probabilidade Online
Micro-Diffusion Compression -- Binary Tree Tweedie Denoising for Online Probability Estimation
March 9, 2026
Autores: Roberto Tacconelli
cs.AI
Resumo
Apresentamos o Midicoth, um sistema de compressão sem perdas que introduz uma camada de micro-difusão com remoção de ruído para melhorar as estimativas de probabilidade produzidas por modelos estatísticos adaptativos. Em compressores como a Predição por Correspondência Parcial (PPM), as estimativas de probabilidade são suavizadas por um prior para lidar com observações esparsas. Quando os contextos foram observados apenas algumas vezes, este prior domina a predição e produz distribuições significativamente mais achatadas do que a verdadeira distribuição da fonte, levando à ineficiência de compressão. O Midicoth aborda esta limitação tratando a suavização do prior como um processo de encolhimento e aplicando um passo reverso de remoção de ruído que corrige as probabilidades previstas usando estatísticas de calibração empírica. Para tornar esta correção eficiente em termos de dados, o método decompõe cada predição de byte numa hierarquia de decisões binárias ao longo de uma árvore bit a bit. Isto converte um único problema de calibração de 256 vias numa sequência de tarefas de calibração binária, permitindo a estimativa confiável de termos de correção a partir de um número relativamente pequeno de observações. O processo de remoção de ruído é aplicado em múltiplos passos sucessivos, permitindo que cada etapa refine os erros de predição residuais deixados pela anterior. A camada de micro-difusão opera como um estágio de calibração pós-combinação leve aplicado após todas as predições do modelo serem combinadas, permitindo-lhe corrigir vieses sistemáticos na distribuição de probabilidade final. O Midicoth combina cinco componentes totalmente online: um modelo PPM adaptativo, um modelo de correspondência de longo alcance, um modelo baseado em trie para palavras, um modelo de contexto de alta ordem e o removedor de ruído de micro-difusão aplicado como estágio final.
English
We present Midicoth, a lossless compression system that introduces a micro-diffusion denoising layer for improving probability estimates produced by adaptive statistical models. In compressors such as Prediction by Partial Matching (PPM), probability estimates are smoothed by a prior to handle sparse observations. When contexts have been seen only a few times, this prior dominates the prediction and produces distributions that are significantly flatter than the true source distribution, leading to compression inefficiency. Midicoth addresses this limitation by treating prior smoothing as a shrinkage process and applying a reverse denoising step that corrects predicted probabilities using empirical calibration statistics. To make this correction data-efficient, the method decomposes each byte prediction into a hierarchy of binary decisions along a bitwise tree. This converts a single 256-way calibration problem into a sequence of binary calibration tasks, enabling reliable estimation of correction terms from relatively small numbers of observations. The denoising process is applied in multiple successive steps, allowing each stage to refine residual prediction errors left by the previous one. The micro-diffusion layer operates as a lightweight post-blend calibration stage applied after all model predictions have been combined, allowing it to correct systematic biases in the final probability distribution. Midicoth combines five fully online components: an adaptive PPM model, a long-range match model, a trie-based word model, a high-order context model, and the micro-diffusion denoiser applied as the final stage.