ChatPaper.aiChatPaper

Restauration audio basée sur les tokens via diffusion discrète

Token-based Audio Inpainting via Discrete Diffusion

July 11, 2025
papers.authors: Tali Dror, Iftach Shoham, Moshe Buchris, Oren Gal, Haim Permuter, Gilad Katz, Eliya Nachmani
cs.AI

papers.abstract

L'inpainting audio désigne la tâche de reconstruction de segments manquants dans des enregistrements audio corrompus. Bien que les approches précédentes, y compris les modèles de diffusion basés sur les formes d'onde et les spectrogrammes, aient montré des résultats prometteurs pour des lacunes courtes, elles voient souvent leur qualité se dégrader lorsque les lacunes dépassent 100 millisecondes (ms). Dans ce travail, nous introduisons une nouvelle méthode d'inpainting basée sur la modélisation de diffusion discrète, qui opère sur des représentations audio tokenisées produites par un tokenizer audio pré-entraîné. Notre approche modélise le processus génératif directement dans l'espace latent discret, permettant une reconstruction stable et sémantiquement cohérente des segments audio manquants. Nous évaluons la méthode sur le jeu de données MusicNet en utilisant à la fois des métriques objectives et perceptuelles pour des durées de lacunes allant jusqu'à 300 ms. Nous avons également évalué notre approche sur le jeu de données MTG, en étendant la durée des lacunes à 500 ms. Les résultats expérimentaux démontrent que notre méthode atteint des performances compétitives ou supérieures par rapport aux approches existantes, en particulier pour les lacunes plus longues, offrant ainsi une solution robuste pour la restauration d'enregistrements musicaux dégradés. Des exemples audio de notre méthode proposée sont disponibles à l'adresse suivante : https://iftach21.github.io/
English
Audio inpainting refers to the task of reconstructing missing segments in corrupted audio recordings. While prior approaches-including waveform and spectrogram-based diffusion models-have shown promising results for short gaps, they often degrade in quality when gaps exceed 100 milliseconds (ms). In this work, we introduce a novel inpainting method based on discrete diffusion modeling, which operates over tokenized audio representations produced by a pre-trained audio tokenizer. Our approach models the generative process directly in the discrete latent space, enabling stable and semantically coherent reconstruction of missing audio. We evaluate the method on the MusicNet dataset using both objective and perceptual metrics across gap durations up to 300 ms. We further evaluated our approach on the MTG dataset, extending the gap duration to 500 ms. Experimental results demonstrate that our method achieves competitive or superior performance compared to existing baselines, particularly for longer gaps, offering a robust solution for restoring degraded musical recordings. Audio examples of our proposed method can be found at https://iftach21.github.io/
PDF31July 16, 2025