Inpaint de Áudio Baseado em Tokens via Difusão Discreta
Token-based Audio Inpainting via Discrete Diffusion
July 11, 2025
Autores: Tali Dror, Iftach Shoham, Moshe Buchris, Oren Gal, Haim Permuter, Gilad Katz, Eliya Nachmani
cs.AI
Resumo
O inpainting de áudio refere-se à tarefa de reconstruir segmentos ausentes em gravações de áudio corrompidas. Embora abordagens anteriores — incluindo modelos de difusão baseados em waveform e espectrograma — tenham mostrado resultados promissores para lacunas curtas, elas frequentemente apresentam degradação na qualidade quando as lacunas excedem 100 milissegundos (ms). Neste trabalho, introduzimos um novo método de inpainting baseado em modelagem de difusão discreta, que opera sobre representações de áudio tokenizadas produzidas por um tokenizador de áudio pré-treinado. Nossa abordagem modela o processo generativo diretamente no espaço latente discreto, permitindo uma reconstrução estável e semanticamente coerente do áudio ausente. Avaliamos o método no conjunto de dados MusicNet usando métricas objetivas e perceptuais para durações de lacuna de até 300 ms. Além disso, avaliamos nossa abordagem no conjunto de dados MTG, estendendo a duração da lacuna para 500 ms. Os resultados experimentais demonstram que nosso método alcança desempenho competitivo ou superior em comparação com as linhas de base existentes, particularmente para lacunas mais longas, oferecendo uma solução robusta para a restauração de gravações musicais degradadas. Exemplos de áudio do nosso método proposto podem ser encontrados em https://iftach21.github.io/.
English
Audio inpainting refers to the task of reconstructing missing segments in
corrupted audio recordings. While prior approaches-including waveform and
spectrogram-based diffusion models-have shown promising results for short gaps,
they often degrade in quality when gaps exceed 100 milliseconds (ms). In this
work, we introduce a novel inpainting method based on discrete diffusion
modeling, which operates over tokenized audio representations produced by a
pre-trained audio tokenizer. Our approach models the generative process
directly in the discrete latent space, enabling stable and semantically
coherent reconstruction of missing audio. We evaluate the method on the
MusicNet dataset using both objective and perceptual metrics across gap
durations up to 300 ms. We further evaluated our approach on the MTG dataset,
extending the gap duration to 500 ms. Experimental results demonstrate that our
method achieves competitive or superior performance compared to existing
baselines, particularly for longer gaps, offering a robust solution for
restoring degraded musical recordings. Audio examples of our proposed method
can be found at https://iftach21.github.io/