Separación Universal de Fuentes con Datos Débilmente Etiquetados
Universal Source Separation with Weakly Labelled Data
May 11, 2023
Autores: Qiuqiang Kong, Ke Chen, Haohe Liu, Xingjian Du, Taylor Berg-Kirkpatrick, Shlomo Dubnov, Mark D. Plumbley
cs.AI
Resumen
La separación universal de fuentes (USS, por sus siglas en inglés) es una tarea de investigación fundamental para el análisis computacional de escenas auditivas, cuyo objetivo es separar grabaciones mono en pistas de fuentes individuales. Existen tres desafíos principales que esperan solución en la tarea de separación de fuentes de audio. En primer lugar, los sistemas anteriores de separación de fuentes de audio se centran principalmente en separar una o un número limitado de fuentes específicas. Falta investigación sobre la construcción de un sistema unificado que pueda separar fuentes arbitrarias mediante un único modelo. En segundo lugar, la mayoría de los sistemas anteriores requieren datos de fuentes limpias para entrenar un separador, mientras que los datos de fuentes limpias son escasos. En tercer lugar, falta un sistema USS que pueda detectar y separar automáticamente clases de sonido activas en un nivel jerárquico. Para utilizar datos de audio a gran escala con etiquetas débiles o sin etiquetar en la separación de fuentes de audio, proponemos un marco universal de separación de fuentes de audio que incluye: 1) un modelo de etiquetado de audio entrenado con datos débilmente etiquetados como red de consulta; y 2) un modelo de separación de fuentes condicional que toma las salidas de la red de consulta como condiciones para separar fuentes de sonido arbitrarias. Investigamos varias redes de consulta, modelos de separación de fuentes y estrategias de entrenamiento, y proponemos una estrategia USS jerárquica para detectar y separar automáticamente clases de sonido de la ontología AudioSet. Al aprovechar únicamente el conjunto de datos AudioSet con etiquetas débiles, nuestro sistema USS logra separar una amplia variedad de clases de sonido, incluyendo la separación de eventos sonoros, la separación de fuentes musicales y la mejora de voz. El sistema USS alcanza una mejora promedio en la relación señal-distorsión (SDRi) de 5.57 dB en 527 clases de sonido de AudioSet; 10.57 dB en el conjunto de datos DCASE 2018 Task 2; 8.12 dB en el conjunto de datos MUSDB18; un SDRi de 7.28 dB en el conjunto de datos Slakh2100; y un SSNR de 9.00 dB en el conjunto de datos voicebank-demand. Publicamos el código fuente en https://github.com/bytedance/uss.
English
Universal source separation (USS) is a fundamental research task for
computational auditory scene analysis, which aims to separate mono recordings
into individual source tracks. There are three potential challenges awaiting
the solution to the audio source separation task. First, previous audio source
separation systems mainly focus on separating one or a limited number of
specific sources. There is a lack of research on building a unified system that
can separate arbitrary sources via a single model. Second, most previous
systems require clean source data to train a separator, while clean source data
are scarce. Third, there is a lack of USS system that can automatically detect
and separate active sound classes in a hierarchical level. To use large-scale
weakly labeled/unlabeled audio data for audio source separation, we propose a
universal audio source separation framework containing: 1) an audio tagging
model trained on weakly labeled data as a query net; and 2) a conditional
source separation model that takes query net outputs as conditions to separate
arbitrary sound sources. We investigate various query nets, source separation
models, and training strategies and propose a hierarchical USS strategy to
automatically detect and separate sound classes from the AudioSet ontology. By
solely leveraging the weakly labelled AudioSet, our USS system is successful in
separating a wide variety of sound classes, including sound event separation,
music source separation, and speech enhancement. The USS system achieves an
average signal-to-distortion ratio improvement (SDRi) of 5.57 dB over 527 sound
classes of AudioSet; 10.57 dB on the DCASE 2018 Task 2 dataset; 8.12 dB on the
MUSDB18 dataset; an SDRi of 7.28 dB on the Slakh2100 dataset; and an SSNR of
9.00 dB on the voicebank-demand dataset. We release the source code at
https://github.com/bytedance/uss