Inpainting audio basato su token tramite diffusione discreta
Token-based Audio Inpainting via Discrete Diffusion
July 11, 2025
Autori: Tali Dror, Iftach Shoham, Moshe Buchris, Oren Gal, Haim Permuter, Gilad Katz, Eliya Nachmani
cs.AI
Abstract
L'audio inpainting si riferisce al compito di ricostruire segmenti mancanti in registrazioni audio danneggiate. Sebbene approcci precedenti, inclusi i modelli di diffusione basati su waveform e spettrogrammi, abbiano mostrato risultati promettenti per lacune brevi, spesso degradano in qualità quando le lacune superano i 100 millisecondi (ms). In questo lavoro, introduciamo un nuovo metodo di inpainting basato sulla modellazione di diffusione discreta, che opera su rappresentazioni audio tokenizzate prodotte da un tokenizer audio pre-addestrato. Il nostro approccio modella il processo generativo direttamente nello spazio latente discreto, consentendo una ricostruzione stabile e semanticamente coerente dell'audio mancante. Valutiamo il metodo sul dataset MusicNet utilizzando sia metriche oggettive che percettive per durate di lacune fino a 300 ms. Abbiamo inoltre valutato il nostro approccio sul dataset MTG, estendendo la durata della lacuna a 500 ms. I risultati sperimentali dimostrano che il nostro metodo raggiunge prestazioni competitive o superiori rispetto alle baseline esistenti, in particolare per lacune più lunghe, offrendo una soluzione robusta per il ripristino di registrazioni musicali degradate. Esempi audio del nostro metodo proposto sono disponibili all'indirizzo https://iftach21.github.io/
English
Audio inpainting refers to the task of reconstructing missing segments in
corrupted audio recordings. While prior approaches-including waveform and
spectrogram-based diffusion models-have shown promising results for short gaps,
they often degrade in quality when gaps exceed 100 milliseconds (ms). In this
work, we introduce a novel inpainting method based on discrete diffusion
modeling, which operates over tokenized audio representations produced by a
pre-trained audio tokenizer. Our approach models the generative process
directly in the discrete latent space, enabling stable and semantically
coherent reconstruction of missing audio. We evaluate the method on the
MusicNet dataset using both objective and perceptual metrics across gap
durations up to 300 ms. We further evaluated our approach on the MTG dataset,
extending the gap duration to 500 ms. Experimental results demonstrate that our
method achieves competitive or superior performance compared to existing
baselines, particularly for longer gaps, offering a robust solution for
restoring degraded musical recordings. Audio examples of our proposed method
can be found at https://iftach21.github.io/