Токен-ориентированное восстановление аудио с использованием дискретной диффузии
Token-based Audio Inpainting via Discrete Diffusion
July 11, 2025
Авторы: Tali Dror, Iftach Shoham, Moshe Buchris, Oren Gal, Haim Permuter, Gilad Katz, Eliya Nachmani
cs.AI
Аннотация
Аудио-инпейнтинг (audio inpainting) — это задача восстановления отсутствующих сегментов в поврежденных аудиозаписях. Хотя предыдущие подходы, включая диффузионные модели, основанные на временных и спектрограммных представлениях, показали многообещающие результаты для коротких пропусков, их качество часто ухудшается, когда длина пропусков превышает 100 миллисекунд (мс). В данной работе мы представляем новый метод инпейнтинга, основанный на дискретной диффузионной модели, которая работает с токенизированными аудиопредставлениями, созданными предварительно обученным аудиотокенизатором. Наш подход моделирует генеративный процесс непосредственно в дискретном латентном пространстве, что позволяет стабильно и семантически согласованно восстанавливать отсутствующие аудиоданные. Мы оцениваем метод на наборе данных MusicNet, используя как объективные, так и перцептивные метрики для пропусков длиной до 300 мс. Дополнительно мы протестировали наш подход на наборе данных MTG, увеличив длину пропусков до 500 мс. Экспериментальные результаты показывают, что наш метод демонстрирует конкурентоспособное или превосходящее качество по сравнению с существующими базовыми подходами, особенно для более длинных пропусков, предлагая надежное решение для восстановления поврежденных музыкальных записей. Аудиопримеры нашего метода доступны по ссылке: https://iftach21.github.io/.
English
Audio inpainting refers to the task of reconstructing missing segments in
corrupted audio recordings. While prior approaches-including waveform and
spectrogram-based diffusion models-have shown promising results for short gaps,
they often degrade in quality when gaps exceed 100 milliseconds (ms). In this
work, we introduce a novel inpainting method based on discrete diffusion
modeling, which operates over tokenized audio representations produced by a
pre-trained audio tokenizer. Our approach models the generative process
directly in the discrete latent space, enabling stable and semantically
coherent reconstruction of missing audio. We evaluate the method on the
MusicNet dataset using both objective and perceptual metrics across gap
durations up to 300 ms. We further evaluated our approach on the MTG dataset,
extending the gap duration to 500 ms. Experimental results demonstrate that our
method achieves competitive or superior performance compared to existing
baselines, particularly for longer gaps, offering a robust solution for
restoring degraded musical recordings. Audio examples of our proposed method
can be found at https://iftach21.github.io/