離散拡散によるトークンベースのオーディオインペインティング
Token-based Audio Inpainting via Discrete Diffusion
July 11, 2025
著者: Tali Dror, Iftach Shoham, Moshe Buchris, Oren Gal, Haim Permuter, Gilad Katz, Eliya Nachmani
cs.AI
要旨
オーディオインペインティングとは、破損した音声記録において欠落したセグメントを再構築するタスクを指します。これまでのアプローチ、例えば波形ベースやスペクトログラムベースの拡散モデルは、短いギャップに対して有望な結果を示してきましたが、ギャップが100ミリ秒(ms)を超えると品質が低下する傾向があります。本研究では、事前に訓練されたオーディオトークナイザーによって生成されたトークン化されたオーディオ表現に基づく、離散拡散モデリングを用いた新しいインペインティング手法を提案します。このアプローチは、生成プロセスを離散潜在空間で直接モデル化し、欠落したオーディオの安定した意味的整合性のある再構築を可能にします。本手法をMusicNetデータセットで評価し、ギャップ期間が最大300 msまでの範囲で客観的および知覚的指標を用いて検証しました。さらに、MTGデータセットでも評価を行い、ギャップ期間を500 msまで拡張しました。実験結果は、本手法が既存のベースラインと比較して競争力のある、あるいは優れた性能を達成し、特に長いギャップに対して、劣化した音楽記録を復元するための堅牢なソリューションを提供することを示しています。提案手法のオーディオ例は、https://iftach21.github.io/ で確認できます。
English
Audio inpainting refers to the task of reconstructing missing segments in
corrupted audio recordings. While prior approaches-including waveform and
spectrogram-based diffusion models-have shown promising results for short gaps,
they often degrade in quality when gaps exceed 100 milliseconds (ms). In this
work, we introduce a novel inpainting method based on discrete diffusion
modeling, which operates over tokenized audio representations produced by a
pre-trained audio tokenizer. Our approach models the generative process
directly in the discrete latent space, enabling stable and semantically
coherent reconstruction of missing audio. We evaluate the method on the
MusicNet dataset using both objective and perceptual metrics across gap
durations up to 300 ms. We further evaluated our approach on the MTG dataset,
extending the gap duration to 500 ms. Experimental results demonstrate that our
method achieves competitive or superior performance compared to existing
baselines, particularly for longer gaps, offering a robust solution for
restoring degraded musical recordings. Audio examples of our proposed method
can be found at https://iftach21.github.io/