ChatPaper.aiChatPaper

Универсальное разделение источников с использованием слабо размеченных данных

Universal Source Separation with Weakly Labelled Data

May 11, 2023
Авторы: Qiuqiang Kong, Ke Chen, Haohe Liu, Xingjian Du, Taylor Berg-Kirkpatrick, Shlomo Dubnov, Mark D. Plumbley
cs.AI

Аннотация

Универсальное разделение источников звука (Universal Source Separation, USS) является фундаментальной задачей в области вычислительного анализа звуковых сцен, которая направлена на разделение монофонических записей на отдельные звуковые дорожки. Существует три основных вызова, связанных с решением задачи разделения аудиоисточников. Во-первых, предыдущие системы разделения аудиоисточников в основном сосредоточены на разделении одного или ограниченного числа конкретных источников. Недостаточно исследований, посвященных созданию унифицированной системы, способной разделять произвольные источники с использованием одной модели. Во-вторых, большинство существующих систем требуют наличия чистых данных источников для обучения разделителя, в то время как такие данные являются редкими. В-третьих, отсутствует система USS, способная автоматически обнаруживать и разделять активные звуковые классы на иерархическом уровне. Для использования крупномасштабных слабо размеченных или неразмеченных аудиоданных в задаче разделения источников мы предлагаем универсальную структуру разделения аудиоисточников, включающую: 1) модель аудиотегирования, обученную на слабо размеченных данных, в качестве запросной сети; и 2) условную модель разделения источников, которая использует выходные данные запросной сети в качестве условий для разделения произвольных звуковых источников. Мы исследуем различные запросные сети, модели разделения источников и стратегии обучения, а также предлагаем иерархическую стратегию USS для автоматического обнаружения и разделения звуковых классов из онтологии AudioSet. Используя исключительно слабо размеченный AudioSet, наша система USS успешно разделяет широкий спектр звуковых классов, включая разделение звуковых событий, разделение музыкальных источников и улучшение речи. Система USS достигает среднего улучшения отношения сигнал-искажение (SDRi) на 5,57 дБ для 527 звуковых классов AudioSet; 10,57 дБ на наборе данных DCASE 2018 Task 2; 8,12 дБ на наборе данных MUSDB18; SDRi 7,28 дБ на наборе данных Slakh2100; и SSNR 9,00 дБ на наборе данных voicebank-demand. Исходный код доступен по адресу: https://github.com/bytedance/uss.
English
Universal source separation (USS) is a fundamental research task for computational auditory scene analysis, which aims to separate mono recordings into individual source tracks. There are three potential challenges awaiting the solution to the audio source separation task. First, previous audio source separation systems mainly focus on separating one or a limited number of specific sources. There is a lack of research on building a unified system that can separate arbitrary sources via a single model. Second, most previous systems require clean source data to train a separator, while clean source data are scarce. Third, there is a lack of USS system that can automatically detect and separate active sound classes in a hierarchical level. To use large-scale weakly labeled/unlabeled audio data for audio source separation, we propose a universal audio source separation framework containing: 1) an audio tagging model trained on weakly labeled data as a query net; and 2) a conditional source separation model that takes query net outputs as conditions to separate arbitrary sound sources. We investigate various query nets, source separation models, and training strategies and propose a hierarchical USS strategy to automatically detect and separate sound classes from the AudioSet ontology. By solely leveraging the weakly labelled AudioSet, our USS system is successful in separating a wide variety of sound classes, including sound event separation, music source separation, and speech enhancement. The USS system achieves an average signal-to-distortion ratio improvement (SDRi) of 5.57 dB over 527 sound classes of AudioSet; 10.57 dB on the DCASE 2018 Task 2 dataset; 8.12 dB on the MUSDB18 dataset; an SDRi of 7.28 dB on the Slakh2100 dataset; and an SSNR of 9.00 dB on the voicebank-demand dataset. We release the source code at https://github.com/bytedance/uss
PDF30December 15, 2024