Universele Bronseparatie met Zwak Gelabelde Gegevens
Universal Source Separation with Weakly Labelled Data
May 11, 2023
Auteurs: Qiuqiang Kong, Ke Chen, Haohe Liu, Xingjian Du, Taylor Berg-Kirkpatrick, Shlomo Dubnov, Mark D. Plumbley
cs.AI
Samenvatting
Universele bronseparatie (USS) is een fundamentele onderzoeksopdracht voor computationele auditieve scene-analyse, die als doel heeft mono-opnames te scheiden in individuele bronsporen. Er zijn drie potentiële uitdagingen die een oplossing vereisen voor de taak van audiobronseparatie. Ten eerste richten eerdere audiobronseparatiesystemen zich voornamelijk op het scheiden van één of een beperkt aantal specifieke bronnen. Er is een gebrek aan onderzoek naar het bouwen van een uniform systeem dat willekeurige bronnen kan scheiden via een enkel model. Ten tweede vereisen de meeste eerdere systemen schone brondata om een separator te trainen, terwijl schone brondata schaars zijn. Ten derde ontbreekt het aan een USS-systeem dat actieve geluidsklassen automatisch kan detecteren en scheiden op een hiërarchisch niveau. Om grootschalige zwak gelabelde/ongelabelde audiogegevens te gebruiken voor audiobronseparatie, stellen we een universeel audiobronseparatieraamwerk voor dat bestaat uit: 1) een audiolabelmodel getraind op zwak gelabelde gegevens als een query-netwerk; en 2) een conditioneel bronseparatiemodel dat de uitvoer van het query-netwerk als voorwaarden gebruikt om willekeurige geluidsbronnen te scheiden. We onderzoeken verschillende query-netwerken, bronseparatiemodellen en trainingsstrategieën en stellen een hiërarchische USS-strategie voor om automatisch geluidsklassen te detecteren en te scheiden vanuit de AudioSet-ontologie. Door uitsluitend gebruik te maken van het zwak gelabelde AudioSet, is ons USS-systeem succesvol in het scheiden van een breed scala aan geluidsklassen, waaronder geluidsgebeurtenisseparatie, muziekbronseparatie en spraakverbetering. Het USS-systeem behaalt een gemiddelde signaal-vervormingsratioverbetering (SDRi) van 5,57 dB over 527 geluidsklassen van AudioSet; 10,57 dB op de DCASE 2018 Task 2-dataset; 8,12 dB op de MUSDB18-dataset; een SDRi van 7,28 dB op de Slakh2100-dataset; en een SSNR van 9,00 dB op de voicebank-demand-dataset. We hebben de broncode vrijgegeven op https://github.com/bytedance/uss.
English
Universal source separation (USS) is a fundamental research task for
computational auditory scene analysis, which aims to separate mono recordings
into individual source tracks. There are three potential challenges awaiting
the solution to the audio source separation task. First, previous audio source
separation systems mainly focus on separating one or a limited number of
specific sources. There is a lack of research on building a unified system that
can separate arbitrary sources via a single model. Second, most previous
systems require clean source data to train a separator, while clean source data
are scarce. Third, there is a lack of USS system that can automatically detect
and separate active sound classes in a hierarchical level. To use large-scale
weakly labeled/unlabeled audio data for audio source separation, we propose a
universal audio source separation framework containing: 1) an audio tagging
model trained on weakly labeled data as a query net; and 2) a conditional
source separation model that takes query net outputs as conditions to separate
arbitrary sound sources. We investigate various query nets, source separation
models, and training strategies and propose a hierarchical USS strategy to
automatically detect and separate sound classes from the AudioSet ontology. By
solely leveraging the weakly labelled AudioSet, our USS system is successful in
separating a wide variety of sound classes, including sound event separation,
music source separation, and speech enhancement. The USS system achieves an
average signal-to-distortion ratio improvement (SDRi) of 5.57 dB over 527 sound
classes of AudioSet; 10.57 dB on the DCASE 2018 Task 2 dataset; 8.12 dB on the
MUSDB18 dataset; an SDRi of 7.28 dB on the Slakh2100 dataset; and an SSNR of
9.00 dB on the voicebank-demand dataset. We release the source code at
https://github.com/bytedance/uss