Inpainting de Audio Basado en Tokens mediante Difusión Discreta
Token-based Audio Inpainting via Discrete Diffusion
July 11, 2025
Autores: Tali Dror, Iftach Shoham, Moshe Buchris, Oren Gal, Haim Permuter, Gilad Katz, Eliya Nachmani
cs.AI
Resumen
El audio inpainting se refiere a la tarea de reconstruir segmentos faltantes en grabaciones de audio corruptas. Si bien enfoques previos, incluyendo modelos de difusión basados en formas de onda y espectrogramas, han mostrado resultados prometedores para brechas cortas, a menudo pierden calidad cuando las brechas superan los 100 milisegundos (ms). En este trabajo, presentamos un novedoso método de inpainting basado en modelado de difusión discreta, que opera sobre representaciones de audio tokenizadas producidas por un tokenizador de audio preentrenado. Nuestro enfoque modela el proceso generativo directamente en el espacio latente discreto, permitiendo una reconstrucción estable y semánticamente coherente del audio faltante. Evaluamos el método en el conjunto de datos MusicNet utilizando métricas tanto objetivas como perceptuales para duraciones de brecha de hasta 300 ms. Además, evaluamos nuestro enfoque en el conjunto de datos MTG, extendiendo la duración de la brecha a 500 ms. Los resultados experimentales demuestran que nuestro método logra un rendimiento competitivo o superior en comparación con las líneas base existentes, particularmente para brechas más largas, ofreciendo una solución robusta para restaurar grabaciones musicales degradadas. Ejemplos de audio de nuestro método propuesto se pueden encontrar en https://iftach21.github.io/.
English
Audio inpainting refers to the task of reconstructing missing segments in
corrupted audio recordings. While prior approaches-including waveform and
spectrogram-based diffusion models-have shown promising results for short gaps,
they often degrade in quality when gaps exceed 100 milliseconds (ms). In this
work, we introduce a novel inpainting method based on discrete diffusion
modeling, which operates over tokenized audio representations produced by a
pre-trained audio tokenizer. Our approach models the generative process
directly in the discrete latent space, enabling stable and semantically
coherent reconstruction of missing audio. We evaluate the method on the
MusicNet dataset using both objective and perceptual metrics across gap
durations up to 300 ms. We further evaluated our approach on the MTG dataset,
extending the gap duration to 500 ms. Experimental results demonstrate that our
method achieves competitive or superior performance compared to existing
baselines, particularly for longer gaps, offering a robust solution for
restoring degraded musical recordings. Audio examples of our proposed method
can be found at https://iftach21.github.io/