弱ラベルデータを用いた汎用音源分離

要旨

ユニバーサル音源分離（USS）は、計算論的聴覚シーン分析における基本的な研究課題であり、モノラル録音を個々の音源トラックに分離することを目的としています。音源分離タスクの解決には、3つの潜在的な課題が存在します。第一に、従来の音源分離システムは、主に1つまたは限られた数の特定の音源を分離することに焦点を当てており、単一のモデルで任意の音源を分離できる統一システムの研究が不足しています。第二に、ほとんどの既存システムは分離器を訓練するためにクリーンな音源データを必要としますが、クリーンな音源データは希少です。第三に、階層レベルでアクティブな音響クラスを自動的に検出・分離できるUSSシステムが不足しています。大規模な弱ラベル/非ラベル音声データを音源分離に活用するため、我々は以下の要素を含むユニバーサル音源分離フレームワークを提案します：1）弱ラベルデータで訓練された音声タグ付けモデルをクエリネットとして使用し、2）クエリネットの出力を条件として任意の音源を分離する条件付き音源分離モデルです。我々は様々なクエリネット、音源分離モデル、および訓練戦略を調査し、AudioSetオントロジーから音響クラスを自動的に検出・分離する階層的USS戦略を提案します。弱ラベルのAudioSetのみを活用することで、我々のUSSシステムは、音響イベント分離、音楽音源分離、音声強調を含む多様な音響クラスの分離に成功しています。USSシステムは、AudioSetの527音響クラスにおいて平均5.57 dBの信号対歪率改善（SDRi）を達成し、DCASE 2018 Task 2データセットでは10.57 dB、MUSDB18データセットでは8.12 dB、Slakh2100データセットでは7.28 dBのSDRiを、またvoicebank-demandデータセットでは9.00 dBのSSNRを達成しました。ソースコードはhttps://github.com/bytedance/ussで公開しています。

English

Universal source separation (USS) is a fundamental research task for computational auditory scene analysis, which aims to separate mono recordings into individual source tracks. There are three potential challenges awaiting the solution to the audio source separation task. First, previous audio source separation systems mainly focus on separating one or a limited number of specific sources. There is a lack of research on building a unified system that can separate arbitrary sources via a single model. Second, most previous systems require clean source data to train a separator, while clean source data are scarce. Third, there is a lack of USS system that can automatically detect and separate active sound classes in a hierarchical level. To use large-scale weakly labeled/unlabeled audio data for audio source separation, we propose a universal audio source separation framework containing: 1) an audio tagging model trained on weakly labeled data as a query net; and 2) a conditional source separation model that takes query net outputs as conditions to separate arbitrary sound sources. We investigate various query nets, source separation models, and training strategies and propose a hierarchical USS strategy to automatically detect and separate sound classes from the AudioSet ontology. By solely leveraging the weakly labelled AudioSet, our USS system is successful in separating a wide variety of sound classes, including sound event separation, music source separation, and speech enhancement. The USS system achieves an average signal-to-distortion ratio improvement (SDRi) of 5.57 dB over 527 sound classes of AudioSet; 10.57 dB on the DCASE 2018 Task 2 dataset; 8.12 dB on the MUSDB18 dataset; an SDRi of 7.28 dB on the Slakh2100 dataset; and an SSNR of 9.00 dB on the voicebank-demand dataset. We release the source code at https://github.com/bytedance/uss

弱ラベルデータを用いた汎用音源分離

Universal Source Separation with Weakly Labelled Data

要旨

Support