Separazione Universale delle Fonti con Dati Debolemente Etichettati

Abstract

La separazione universale delle sorgenti (USS) è un compito di ricerca fondamentale per l'analisi computazionale della scena uditiva, che mira a separare registrazioni mono in tracci individuali delle sorgenti. Ci sono tre potenziali sfide che attendono una soluzione al compito di separazione delle sorgenti audio. In primo luogo, i precedenti sistemi di separazione delle sorgenti audio si concentrano principalmente sulla separazione di una o di un numero limitato di sorgenti specifiche. Manca una ricerca sulla costruzione di un sistema unificato che possa separare sorgenti arbitrarie attraverso un singolo modello. In secondo luogo, la maggior parte dei sistemi precedenti richiede dati di sorgente puliti per addestrare un separatore, mentre i dati di sorgente puliti sono scarsi. In terzo luogo, manca un sistema USS che possa rilevare e separare automaticamente classi di suoni attivi a un livello gerarchico. Per utilizzare dati audio su larga scala etichettati debolmente/non etichettati per la separazione delle sorgenti audio, proponiamo un framework universale di separazione delle sorgenti audio che comprende: 1) un modello di etichettatura audio addestrato su dati etichettati debolmente come rete di query; e 2) un modello di separazione delle sorgenti condizionale che prende le uscite della rete di query come condizioni per separare sorgenti sonore arbitrarie. Investigiamo varie reti di query, modelli di separazione delle sorgenti e strategie di addestramento e proponiamo una strategia USS gerarchica per rilevare e separare automaticamente classi di suoni dall'ontologia AudioSet. Utilizzando esclusivamente l'AudioSet etichettato debolmente, il nostro sistema USS riesce a separare una vasta gamma di classi di suoni, inclusa la separazione di eventi sonori, la separazione di sorgenti musicali e il miglioramento del parlato. Il sistema USS raggiunge un miglioramento medio del rapporto segnale-distorsione (SDRi) di 5,57 dB su 527 classi di suoni di AudioSet; 10,57 dB sul dataset DCASE 2018 Task 2; 8,12 dB sul dataset MUSDB18; un SDRi di 7,28 dB sul dataset Slakh2100; e un SSNR di 9,00 dB sul dataset voicebank-demand. Rilasciamo il codice sorgente all'indirizzo https://github.com/bytedance/uss.

English

Universal source separation (USS) is a fundamental research task for computational auditory scene analysis, which aims to separate mono recordings into individual source tracks. There are three potential challenges awaiting the solution to the audio source separation task. First, previous audio source separation systems mainly focus on separating one or a limited number of specific sources. There is a lack of research on building a unified system that can separate arbitrary sources via a single model. Second, most previous systems require clean source data to train a separator, while clean source data are scarce. Third, there is a lack of USS system that can automatically detect and separate active sound classes in a hierarchical level. To use large-scale weakly labeled/unlabeled audio data for audio source separation, we propose a universal audio source separation framework containing: 1) an audio tagging model trained on weakly labeled data as a query net; and 2) a conditional source separation model that takes query net outputs as conditions to separate arbitrary sound sources. We investigate various query nets, source separation models, and training strategies and propose a hierarchical USS strategy to automatically detect and separate sound classes from the AudioSet ontology. By solely leveraging the weakly labelled AudioSet, our USS system is successful in separating a wide variety of sound classes, including sound event separation, music source separation, and speech enhancement. The USS system achieves an average signal-to-distortion ratio improvement (SDRi) of 5.57 dB over 527 sound classes of AudioSet; 10.57 dB on the DCASE 2018 Task 2 dataset; 8.12 dB on the MUSDB18 dataset; an SDRi of 7.28 dB on the Slakh2100 dataset; and an SSNR of 9.00 dB on the voicebank-demand dataset. We release the source code at https://github.com/bytedance/uss

Separazione Universale delle Fonti con Dati Debolemente Etichettati

Universal Source Separation with Weakly Labelled Data

Abstract

Support