Universelle Quellentrennung mit schwach annotierten Daten
Universal Source Separation with Weakly Labelled Data
May 11, 2023
Autoren: Qiuqiang Kong, Ke Chen, Haohe Liu, Xingjian Du, Taylor Berg-Kirkpatrick, Shlomo Dubnov, Mark D. Plumbley
cs.AI
Zusammenfassung
Universelle Quellentrennung (Universal Source Separation, USS) ist eine grundlegende Forschungsaufgabe der computergestützten auditiven Szenenanalyse, die darauf abzielt, Mono-Aufnahmen in einzelne Quellspuren zu trennen. Es gibt drei potenzielle Herausforderungen, die auf die Lösung der Aufgabe der Audioquellentrennung warten. Erstens konzentrieren sich bisherige Systeme zur Audioquellentrennung hauptsächlich auf die Trennung einer oder einer begrenzten Anzahl spezifischer Quellen. Es mangelt an Forschung zur Entwicklung eines einheitlichen Systems, das beliebige Quellen über ein einzelnes Modell trennen kann. Zweitens benötigen die meisten bisherigen Systeme saubere Quelldaten, um einen Separator zu trainieren, während saubere Quelldaten knapp sind. Drittens fehlt es an einem USS-System, das aktive Klangklassen auf einer hierarchischen Ebene automatisch erkennen und trennen kann. Um groß angelegte, schwach annotierte oder nicht annotierte Audiodaten für die Audioquellentrennung zu nutzen, schlagen wir ein universelles Framework für die Audioquellentrennung vor, das Folgendes enthält: 1) ein auf schwach annotierten Daten trainiertes Audio-Tagging-Modell als Abfragenetz (Query Net) und 2) ein bedingtes Quellentrennungsmodell, das die Ausgaben des Abfragenetzes als Bedingungen verwendet, um beliebige Klangquellen zu trennen. Wir untersuchen verschiedene Abfragenetze, Quellentrennungsmodelle und Trainingsstrategien und schlagen eine hierarchische USS-Strategie vor, um Klangklassen aus der AudioSet-Ontologie automatisch zu erkennen und zu trennen. Durch die ausschließliche Nutzung des schwach annotierten AudioSets ist unser USS-System erfolgreich in der Trennung einer Vielzahl von Klangklassen, einschließlich der Trennung von Klangereignissen, Musikquellentrennung und Sprachverbesserung. Das USS-System erreicht eine durchschnittliche Verbesserung des Signal-zu-Verzerrungs-Verhältnisses (SDRi) von 5,57 dB über 527 Klangklassen des AudioSets; 10,57 dB auf dem DCASE 2018 Task 2-Datensatz; 8,12 dB auf dem MUSDB18-Datensatz; einen SDRi von 7,28 dB auf dem Slakh2100-Datensatz und einen SSNR von 9,00 dB auf dem Voicebank-Demand-Datensatz. Wir veröffentlichen den Quellcode unter https://github.com/bytedance/uss.
English
Universal source separation (USS) is a fundamental research task for
computational auditory scene analysis, which aims to separate mono recordings
into individual source tracks. There are three potential challenges awaiting
the solution to the audio source separation task. First, previous audio source
separation systems mainly focus on separating one or a limited number of
specific sources. There is a lack of research on building a unified system that
can separate arbitrary sources via a single model. Second, most previous
systems require clean source data to train a separator, while clean source data
are scarce. Third, there is a lack of USS system that can automatically detect
and separate active sound classes in a hierarchical level. To use large-scale
weakly labeled/unlabeled audio data for audio source separation, we propose a
universal audio source separation framework containing: 1) an audio tagging
model trained on weakly labeled data as a query net; and 2) a conditional
source separation model that takes query net outputs as conditions to separate
arbitrary sound sources. We investigate various query nets, source separation
models, and training strategies and propose a hierarchical USS strategy to
automatically detect and separate sound classes from the AudioSet ontology. By
solely leveraging the weakly labelled AudioSet, our USS system is successful in
separating a wide variety of sound classes, including sound event separation,
music source separation, and speech enhancement. The USS system achieves an
average signal-to-distortion ratio improvement (SDRi) of 5.57 dB over 527 sound
classes of AudioSet; 10.57 dB on the DCASE 2018 Task 2 dataset; 8.12 dB on the
MUSDB18 dataset; an SDRi of 7.28 dB on the Slakh2100 dataset; and an SSNR of
9.00 dB on the voicebank-demand dataset. We release the source code at
https://github.com/bytedance/uss