ChatPaper.aiChatPaper

Token-gebaseerde Audio-inpainting via Discrete Diffusie

Token-based Audio Inpainting via Discrete Diffusion

July 11, 2025
Auteurs: Tali Dror, Iftach Shoham, Moshe Buchris, Oren Gal, Haim Permuter, Gilad Katz, Eliya Nachmani
cs.AI

Samenvatting

Audio inpainting verwijst naar de taak van het reconstrueren van ontbrekende segmenten in beschadigde audio-opnames. Hoewel eerdere benaderingen, waaronder diffusi modellen gebaseerd op golfvormen en spectrogrammen, veelbelovende resultaten hebben laten zien voor korte gaten, gaat de kwaliteit vaak achteruit wanneer de gaten langer zijn dan 100 milliseconden (ms). In dit werk introduceren we een nieuwe inpainting-methode gebaseerd op discreet diffusi modelleren, dat werkt over getokeniseerde audio-representaties geproduceerd door een vooraf getrainde audio-tokenizer. Onze aanpak modelleert het generatieve proces direct in de discrete latente ruimte, waardoor een stabiele en semantisch samenhangende reconstructie van ontbrekende audio mogelijk wordt. We evalueren de methode op de MusicNet-dataset met behulp van zowel objectieve als perceptuele metingen voor gatduur tot 300 ms. We hebben onze aanpak verder geëvalueerd op de MTG-dataset, waarbij de gatduur werd uitgebreid tot 500 ms. Experimentele resultaten tonen aan dat onze methode concurrerende of superieure prestaties bereikt in vergelijking met bestaande baselines, vooral voor langere gaten, en biedt zo een robuuste oplossing voor het herstellen van gedegradeerde muziekopnames. Audio-voorbeelden van onze voorgestelde methode zijn te vinden op https://iftach21.github.io/
English
Audio inpainting refers to the task of reconstructing missing segments in corrupted audio recordings. While prior approaches-including waveform and spectrogram-based diffusion models-have shown promising results for short gaps, they often degrade in quality when gaps exceed 100 milliseconds (ms). In this work, we introduce a novel inpainting method based on discrete diffusion modeling, which operates over tokenized audio representations produced by a pre-trained audio tokenizer. Our approach models the generative process directly in the discrete latent space, enabling stable and semantically coherent reconstruction of missing audio. We evaluate the method on the MusicNet dataset using both objective and perceptual metrics across gap durations up to 300 ms. We further evaluated our approach on the MTG dataset, extending the gap duration to 500 ms. Experimental results demonstrate that our method achieves competitive or superior performance compared to existing baselines, particularly for longer gaps, offering a robust solution for restoring degraded musical recordings. Audio examples of our proposed method can be found at https://iftach21.github.io/
PDF41July 16, 2025