Token-basiertes Audio-Inpainting mittels diskreter Diffusion
Token-based Audio Inpainting via Discrete Diffusion
July 11, 2025
papers.authors: Tali Dror, Iftach Shoham, Moshe Buchris, Oren Gal, Haim Permuter, Gilad Katz, Eliya Nachmani
cs.AI
papers.abstract
Audio Inpainting bezeichnet die Aufgabe, fehlende Segmente in beschädigten Audioaufnahmen zu rekonstruieren. Während bisherige Ansätze – einschließlich wellenform- und spektrogrammbasierter Diffusionsmodelle – vielversprechende Ergebnisse für kurze Lücken gezeigt haben, lässt ihre Qualität oft nach, wenn die Lücken 100 Millisekunden (ms) überschreiten. In dieser Arbeit stellen wir eine neuartige Inpainting-Methode vor, die auf diskreter Diffusionsmodellierung basiert und über tokenisierte Audiodarstellungen arbeitet, die von einem vortrainierten Audio-Tokenizer erzeugt werden. Unser Ansatz modelliert den generativen Prozess direkt im diskreten latenten Raum, was eine stabile und semantisch kohärente Rekonstruktion fehlender Audiodaten ermöglicht. Wir evaluieren die Methode auf dem MusicNet-Datensatz unter Verwendung sowohl objektiver als auch wahrnehmungsbasierter Metriken für Lückendauern von bis zu 300 ms. Darüber hinaus haben wir unseren Ansatz auf dem MTG-Datensatz evaluiert und die Lückendauer auf 500 ms erweitert. Die experimentellen Ergebnisse zeigen, dass unsere Methode im Vergleich zu bestehenden Baseline-Modellen wettbewerbsfähige oder überlegene Leistung erzielt, insbesondere bei längeren Lücken, und somit eine robuste Lösung für die Wiederherstellung degradierter Musikaufnahmen bietet. Audio-Beispiele unserer vorgeschlagenen Methode finden Sie unter https://iftach21.github.io/.
English
Audio inpainting refers to the task of reconstructing missing segments in
corrupted audio recordings. While prior approaches-including waveform and
spectrogram-based diffusion models-have shown promising results for short gaps,
they often degrade in quality when gaps exceed 100 milliseconds (ms). In this
work, we introduce a novel inpainting method based on discrete diffusion
modeling, which operates over tokenized audio representations produced by a
pre-trained audio tokenizer. Our approach models the generative process
directly in the discrete latent space, enabling stable and semantically
coherent reconstruction of missing audio. We evaluate the method on the
MusicNet dataset using both objective and perceptual metrics across gap
durations up to 300 ms. We further evaluated our approach on the MTG dataset,
extending the gap duration to 500 ms. Experimental results demonstrate that our
method achieves competitive or superior performance compared to existing
baselines, particularly for longer gaps, offering a robust solution for
restoring degraded musical recordings. Audio examples of our proposed method
can be found at https://iftach21.github.io/