ChatPaper.aiChatPaper

Семантически согласованный набор данных для ресурсоэффективного запросного универсального разделения звуков

A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation

January 30, 2026
Авторы: Kai Li, Jintao Cheng, Chang Zeng, Zijun Yan, Helin Wang, Zixiong Su, Bo Zheng, Xiaolin Hu
cs.AI

Аннотация

Запросно-ориентированное универсальное разделение звука является фундаментальной задачей для интеллектуальных слуховых систем, направленной на выделение целевых источников из смесей. Несмотря на недавние успехи, существующие методы продолжают страдать от остаточных помех в сложных акустических сценах. Это ограничение производительности в значительной степени проистекает из проблемы данных: наборы данных из реального мира содержат слабые метки и выраженную совместную встречаемость событий. Эти недостатки приводят к тому, что модели изучают ложные корреляции между фоновым шумом и целевыми категориями вместо устойчивых акустических признаков. Для решения этой проблемы мы предлагаем автоматизированный конвейер, который устраняет совместную встречаемость событий путем извлечения высокочистых сегментов с одиночными событиями из наборов данных реального мира с помощью семантически согласованного протокола синтеза. Используя этот конвейер, мы создали Hive — высококачественный синтетический набор данных, содержащий 2.4 тысячи часов исходного аудио. Результаты экспериментов показывают, что по сравнению с передовой моделью SAM-Audio, обученной на огромном наборе данных, в ~500 раз превосходящем Hive по объему, некоторые модели с открытым исходным кодом, обученные на Hive, демонстрируют сопоставимую точность разделения и перцептивное качество. Более того, эти модели показали выдающуюся способность к zero-shot обобщению на тестовых наборах данных, выходящих за пределы распределения обучающих данных. Эти результаты подчеркивают, что приоритизация чистоты обучающих сигналов позволяет достичь значительной эффективности данных, предлагая новую парадигму для обучения устойчивых базовых слуховых моделей со сниженными вычислительными затратами. Код и набор данных доступны по адресу https://shandaai.github.io/Hive.
English
Query-based universal sound separation is fundamental to intelligent auditory systems, aiming to isolate specific sources from mixtures. Despite recent advances, existing methods continue to suffer from residual interference in complex acoustic scenes. This performance limitation stems largely from a data bottleneck: in-the-wild datasets contain weak labels and severe co-occurrence of events. These flaws induce models to learn spurious correlations between background noise and target categories instead of robust acoustic features. To address this, we propose an automated pipeline that eliminates co-occurrence of events by mining high-purity single-event segments from in-the-wild datasets via a semantically consistent synthesis protocol. Utilizing this pipeline, we constructed Hive, a high-quality synthetic dataset comprising 2.4k hours of raw audio. Experimental results demonstrate that, compared with the state-of-the-art model SAM-Audio which was trained on a huge dataset sim500 times larger than Hive, certain open-source models trained on Hive achieve competitive separation accuracy and perceptual quality. Moreover, these models exhibited remarkable zero-shot generalization on out-of-distribution evaluation benchmarks. These findings highlight that prioritizing purity of supervised signals enables significant data efficiency, offering a new paradigm for training robust auditory foundation models with reduced computational costs. Code and dataset are available at https://shandaai.github.io/Hive.
PDF42February 7, 2026