Separazione Universale delle Fonti con Dati Debolemente Etichettati
Universal Source Separation with Weakly Labelled Data
May 11, 2023
Autori: Qiuqiang Kong, Ke Chen, Haohe Liu, Xingjian Du, Taylor Berg-Kirkpatrick, Shlomo Dubnov, Mark D. Plumbley
cs.AI
Abstract
La separazione universale delle sorgenti (USS) è un compito di ricerca fondamentale per l'analisi computazionale della scena uditiva, che mira a separare registrazioni mono in tracci individuali delle sorgenti. Ci sono tre potenziali sfide che attendono una soluzione al compito di separazione delle sorgenti audio. In primo luogo, i precedenti sistemi di separazione delle sorgenti audio si concentrano principalmente sulla separazione di una o di un numero limitato di sorgenti specifiche. Manca una ricerca sulla costruzione di un sistema unificato che possa separare sorgenti arbitrarie attraverso un singolo modello. In secondo luogo, la maggior parte dei sistemi precedenti richiede dati di sorgente puliti per addestrare un separatore, mentre i dati di sorgente puliti sono scarsi. In terzo luogo, manca un sistema USS che possa rilevare e separare automaticamente classi di suoni attivi a un livello gerarchico. Per utilizzare dati audio su larga scala etichettati debolmente/non etichettati per la separazione delle sorgenti audio, proponiamo un framework universale di separazione delle sorgenti audio che comprende: 1) un modello di etichettatura audio addestrato su dati etichettati debolmente come rete di query; e 2) un modello di separazione delle sorgenti condizionale che prende le uscite della rete di query come condizioni per separare sorgenti sonore arbitrarie. Investigiamo varie reti di query, modelli di separazione delle sorgenti e strategie di addestramento e proponiamo una strategia USS gerarchica per rilevare e separare automaticamente classi di suoni dall'ontologia AudioSet. Utilizzando esclusivamente l'AudioSet etichettato debolmente, il nostro sistema USS riesce a separare una vasta gamma di classi di suoni, inclusa la separazione di eventi sonori, la separazione di sorgenti musicali e il miglioramento del parlato. Il sistema USS raggiunge un miglioramento medio del rapporto segnale-distorsione (SDRi) di 5,57 dB su 527 classi di suoni di AudioSet; 10,57 dB sul dataset DCASE 2018 Task 2; 8,12 dB sul dataset MUSDB18; un SDRi di 7,28 dB sul dataset Slakh2100; e un SSNR di 9,00 dB sul dataset voicebank-demand. Rilasciamo il codice sorgente all'indirizzo https://github.com/bytedance/uss.
English
Universal source separation (USS) is a fundamental research task for
computational auditory scene analysis, which aims to separate mono recordings
into individual source tracks. There are three potential challenges awaiting
the solution to the audio source separation task. First, previous audio source
separation systems mainly focus on separating one or a limited number of
specific sources. There is a lack of research on building a unified system that
can separate arbitrary sources via a single model. Second, most previous
systems require clean source data to train a separator, while clean source data
are scarce. Third, there is a lack of USS system that can automatically detect
and separate active sound classes in a hierarchical level. To use large-scale
weakly labeled/unlabeled audio data for audio source separation, we propose a
universal audio source separation framework containing: 1) an audio tagging
model trained on weakly labeled data as a query net; and 2) a conditional
source separation model that takes query net outputs as conditions to separate
arbitrary sound sources. We investigate various query nets, source separation
models, and training strategies and propose a hierarchical USS strategy to
automatically detect and separate sound classes from the AudioSet ontology. By
solely leveraging the weakly labelled AudioSet, our USS system is successful in
separating a wide variety of sound classes, including sound event separation,
music source separation, and speech enhancement. The USS system achieves an
average signal-to-distortion ratio improvement (SDRi) of 5.57 dB over 527 sound
classes of AudioSet; 10.57 dB on the DCASE 2018 Task 2 dataset; 8.12 dB on the
MUSDB18 dataset; an SDRi of 7.28 dB on the Slakh2100 dataset; and an SSNR of
9.00 dB on the voicebank-demand dataset. We release the source code at
https://github.com/bytedance/uss