Séparation universelle de sources avec des données faiblement étiquetées

Résumé

La séparation universelle des sources (USS) est une tâche de recherche fondamentale pour l'analyse computationnelle de la scène auditive, qui vise à séparer des enregistrements mono en pistes sources individuelles. Trois défis majeurs attendent une solution pour la tâche de séparation des sources audio. Premièrement, les systèmes précédents de séparation des sources audio se concentrent principalement sur la séparation d'une ou d'un nombre limité de sources spécifiques. Il manque des recherches sur la construction d'un système unifié capable de séparer des sources arbitraires via un seul modèle. Deuxièmement, la plupart des systèmes précédents nécessitent des données sources propres pour entraîner un séparateur, alors que les données sources propres sont rares. Troisièmement, il manque un système USS capable de détecter et de séparer automatiquement les classes de sons actives à un niveau hiérarchique. Pour utiliser des données audio à grande échelle faiblement étiquetées/non étiquetées pour la séparation des sources audio, nous proposons un cadre universel de séparation des sources audio contenant : 1) un modèle de tagging audio entraîné sur des données faiblement étiquetées comme réseau de requête ; et 2) un modèle de séparation des sources conditionnel qui prend les sorties du réseau de requête comme conditions pour séparer des sources sonores arbitraires. Nous explorons divers réseaux de requête, modèles de séparation des sources et stratégies d'entraînement, et proposons une stratégie USS hiérarchique pour détecter et séparer automatiquement les classes de sons de l'ontologie AudioSet. En exploitant uniquement l'AudioSet faiblement étiqueté, notre système USS réussit à séparer une grande variété de classes de sons, y compris la séparation d'événements sonores, la séparation de sources musicales et l'amélioration de la parole. Le système USS atteint une amélioration moyenne du rapport signal sur distorsion (SDRi) de 5,57 dB sur 527 classes de sons d'AudioSet ; 10,57 dB sur le jeu de données DCASE 2018 Task 2 ; 8,12 dB sur le jeu de données MUSDB18 ; un SDRi de 7,28 dB sur le jeu de données Slakh2100 ; et un SSNR de 9,00 dB sur le jeu de données voicebank-demand. Nous publions le code source à l'adresse https://github.com/bytedance/uss.

English

Universal source separation (USS) is a fundamental research task for computational auditory scene analysis, which aims to separate mono recordings into individual source tracks. There are three potential challenges awaiting the solution to the audio source separation task. First, previous audio source separation systems mainly focus on separating one or a limited number of specific sources. There is a lack of research on building a unified system that can separate arbitrary sources via a single model. Second, most previous systems require clean source data to train a separator, while clean source data are scarce. Third, there is a lack of USS system that can automatically detect and separate active sound classes in a hierarchical level. To use large-scale weakly labeled/unlabeled audio data for audio source separation, we propose a universal audio source separation framework containing: 1) an audio tagging model trained on weakly labeled data as a query net; and 2) a conditional source separation model that takes query net outputs as conditions to separate arbitrary sound sources. We investigate various query nets, source separation models, and training strategies and propose a hierarchical USS strategy to automatically detect and separate sound classes from the AudioSet ontology. By solely leveraging the weakly labelled AudioSet, our USS system is successful in separating a wide variety of sound classes, including sound event separation, music source separation, and speech enhancement. The USS system achieves an average signal-to-distortion ratio improvement (SDRi) of 5.57 dB over 527 sound classes of AudioSet; 10.57 dB on the DCASE 2018 Task 2 dataset; 8.12 dB on the MUSDB18 dataset; an SDRi of 7.28 dB on the Slakh2100 dataset; and an SSNR of 9.00 dB on the voicebank-demand dataset. We release the source code at https://github.com/bytedance/uss

Séparation universelle de sources avec des données faiblement étiquetées

Universal Source Separation with Weakly Labelled Data

Résumé

Support