Separação Universal de Fontes com Dados Fracamente Rotulados
Universal Source Separation with Weakly Labelled Data
May 11, 2023
Autores: Qiuqiang Kong, Ke Chen, Haohe Liu, Xingjian Du, Taylor Berg-Kirkpatrick, Shlomo Dubnov, Mark D. Plumbley
cs.AI
Resumo
A separação universal de fontes (USS) é uma tarefa fundamental de pesquisa para a análise computacional de cenas auditivas, que visa separar gravações mono em faixas de fontes individuais. Existem três desafios potenciais aguardando a solução para a tarefa de separação de fontes de áudio. Primeiro, os sistemas anteriores de separação de fontes de áudio concentram-se principalmente na separação de uma ou de um número limitado de fontes específicas. Há uma falta de pesquisa sobre a construção de um sistema unificado que possa separar fontes arbitrárias por meio de um único modelo. Segundo, a maioria dos sistemas anteriores requer dados de fontes limpos para treinar um separador, enquanto dados de fontes limpos são escassos. Terceiro, há uma falta de sistema USS que possa detectar e separar automaticamente classes de sons ativos em um nível hierárquico. Para utilizar dados de áudio em grande escala fracamente rotulados/não rotulados para a separação de fontes de áudio, propomos uma estrutura universal de separação de fontes de áudio contendo: 1) um modelo de etiquetagem de áudio treinado em dados fracamente rotulados como uma rede de consulta; e 2) um modelo de separação de fontes condicional que toma as saídas da rede de consulta como condições para separar fontes de som arbitrárias. Investigamos várias redes de consulta, modelos de separação de fontes e estratégias de treinamento e propomos uma estratégia hierárquica de USS para detectar e separar automaticamente classes de sons da ontologia AudioSet. Ao utilizar apenas o AudioSet fracamente rotulado, nosso sistema USS é bem-sucedido na separação de uma ampla variedade de classes de sons, incluindo separação de eventos sonoros, separação de fontes musicais e aprimoramento de fala. O sistema USS alcança uma melhoria média na relação sinal-distorção (SDRi) de 5,57 dB em 527 classes de sons do AudioSet; 10,57 dB no conjunto de dados DCASE 2018 Task 2; 8,12 dB no conjunto de dados MUSDB18; um SDRi de 7,28 dB no conjunto de dados Slakh2100; e um SSNR de 9,00 dB no conjunto de dados voicebank-demand. Disponibilizamos o código-fonte em https://github.com/bytedance/uss.
English
Universal source separation (USS) is a fundamental research task for
computational auditory scene analysis, which aims to separate mono recordings
into individual source tracks. There are three potential challenges awaiting
the solution to the audio source separation task. First, previous audio source
separation systems mainly focus on separating one or a limited number of
specific sources. There is a lack of research on building a unified system that
can separate arbitrary sources via a single model. Second, most previous
systems require clean source data to train a separator, while clean source data
are scarce. Third, there is a lack of USS system that can automatically detect
and separate active sound classes in a hierarchical level. To use large-scale
weakly labeled/unlabeled audio data for audio source separation, we propose a
universal audio source separation framework containing: 1) an audio tagging
model trained on weakly labeled data as a query net; and 2) a conditional
source separation model that takes query net outputs as conditions to separate
arbitrary sound sources. We investigate various query nets, source separation
models, and training strategies and propose a hierarchical USS strategy to
automatically detect and separate sound classes from the AudioSet ontology. By
solely leveraging the weakly labelled AudioSet, our USS system is successful in
separating a wide variety of sound classes, including sound event separation,
music source separation, and speech enhancement. The USS system achieves an
average signal-to-distortion ratio improvement (SDRi) of 5.57 dB over 527 sound
classes of AudioSet; 10.57 dB on the DCASE 2018 Task 2 dataset; 8.12 dB on the
MUSDB18 dataset; an SDRi of 7.28 dB on the Slakh2100 dataset; and an SSNR of
9.00 dB on the voicebank-demand dataset. We release the source code at
https://github.com/bytedance/uss