Séparation universelle de sources avec des données faiblement étiquetées
Universal Source Separation with Weakly Labelled Data
May 11, 2023
Auteurs: Qiuqiang Kong, Ke Chen, Haohe Liu, Xingjian Du, Taylor Berg-Kirkpatrick, Shlomo Dubnov, Mark D. Plumbley
cs.AI
Résumé
La séparation universelle des sources (USS) est une tâche de recherche fondamentale pour l'analyse computationnelle de la scène auditive, qui vise à séparer des enregistrements mono en pistes sources individuelles. Trois défis majeurs attendent une solution pour la tâche de séparation des sources audio. Premièrement, les systèmes précédents de séparation des sources audio se concentrent principalement sur la séparation d'une ou d'un nombre limité de sources spécifiques. Il manque des recherches sur la construction d'un système unifié capable de séparer des sources arbitraires via un seul modèle. Deuxièmement, la plupart des systèmes précédents nécessitent des données sources propres pour entraîner un séparateur, alors que les données sources propres sont rares. Troisièmement, il manque un système USS capable de détecter et de séparer automatiquement les classes de sons actives à un niveau hiérarchique. Pour utiliser des données audio à grande échelle faiblement étiquetées/non étiquetées pour la séparation des sources audio, nous proposons un cadre universel de séparation des sources audio contenant : 1) un modèle de tagging audio entraîné sur des données faiblement étiquetées comme réseau de requête ; et 2) un modèle de séparation des sources conditionnel qui prend les sorties du réseau de requête comme conditions pour séparer des sources sonores arbitraires. Nous explorons divers réseaux de requête, modèles de séparation des sources et stratégies d'entraînement, et proposons une stratégie USS hiérarchique pour détecter et séparer automatiquement les classes de sons de l'ontologie AudioSet. En exploitant uniquement l'AudioSet faiblement étiqueté, notre système USS réussit à séparer une grande variété de classes de sons, y compris la séparation d'événements sonores, la séparation de sources musicales et l'amélioration de la parole. Le système USS atteint une amélioration moyenne du rapport signal sur distorsion (SDRi) de 5,57 dB sur 527 classes de sons d'AudioSet ; 10,57 dB sur le jeu de données DCASE 2018 Task 2 ; 8,12 dB sur le jeu de données MUSDB18 ; un SDRi de 7,28 dB sur le jeu de données Slakh2100 ; et un SSNR de 9,00 dB sur le jeu de données voicebank-demand. Nous publions le code source à l'adresse https://github.com/bytedance/uss.
English
Universal source separation (USS) is a fundamental research task for
computational auditory scene analysis, which aims to separate mono recordings
into individual source tracks. There are three potential challenges awaiting
the solution to the audio source separation task. First, previous audio source
separation systems mainly focus on separating one or a limited number of
specific sources. There is a lack of research on building a unified system that
can separate arbitrary sources via a single model. Second, most previous
systems require clean source data to train a separator, while clean source data
are scarce. Third, there is a lack of USS system that can automatically detect
and separate active sound classes in a hierarchical level. To use large-scale
weakly labeled/unlabeled audio data for audio source separation, we propose a
universal audio source separation framework containing: 1) an audio tagging
model trained on weakly labeled data as a query net; and 2) a conditional
source separation model that takes query net outputs as conditions to separate
arbitrary sound sources. We investigate various query nets, source separation
models, and training strategies and propose a hierarchical USS strategy to
automatically detect and separate sound classes from the AudioSet ontology. By
solely leveraging the weakly labelled AudioSet, our USS system is successful in
separating a wide variety of sound classes, including sound event separation,
music source separation, and speech enhancement. The USS system achieves an
average signal-to-distortion ratio improvement (SDRi) of 5.57 dB over 527 sound
classes of AudioSet; 10.57 dB on the DCASE 2018 Task 2 dataset; 8.12 dB on the
MUSDB18 dataset; an SDRi of 7.28 dB on the Slakh2100 dataset; and an SSNR of
9.00 dB on the voicebank-demand dataset. We release the source code at
https://github.com/bytedance/uss