Ein semantisch konsistentes Datenset für dateneffiziente abfragebasierte universelle Klangtrennung
A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation
January 30, 2026
papers.authors: Kai Li, Jintao Cheng, Chang Zeng, Zijun Yan, Helin Wang, Zixiong Su, Bo Zheng, Xiaolin Hu
cs.AI
papers.abstract
Abfragebasierte universelle Schalltrennung ist grundlegend für intelligente Audiosysteme und zielt darauf ab, spezifische Quellen aus Gemischen zu isolieren. Trotz jüngster Fortschritte leiden bestehende Methoden weiterhin unter Restinterferenzen in komplexen akustischen Szenen. Diese Leistungsbegrenzung resultiert hauptsächlich aus einem Datenengpass: In-the-Wild-Datensätze enthalten schwache Labels und starke Kookkurrenz von Ereignissen. Diese Mängel veranlassen Modelle dazu, scheinbare Korrelationen zwischen Hintergrundgeräuschen und Zielkategorien statt robuster akustischer Merkmale zu erlernen. Um dies zu adressieren, schlagen wir eine automatisierte Pipeline vor, die die Kookkurrenz von Ereignissen eliminiert, indem hochreine Einzelereignis-Segmente aus In-the-Wild-Datensätzen durch ein semantisch konsistentes Syntheseprotokoll extrahiert werden. Mithilfe dieser Pipeline erstellten wir Hive, einen hochwertigen synthetischen Datensatz mit 2,4 Tausend Stunden Rohaudio. Experimentelle Ergebnisse zeigen, dass verglichen mit dem state-of-the-art Modell SAM-Audio, das auf einem etwa 500-mal größeren Datensatz trainiert wurde, bestimmte auf Hive trainierte Open-Source-Modelle konkurrenzfähige Trenngenauigkeit und wahrgenommene Qualität erreichen. Darüber hinaus zeigten diese Modelle bemerkenswerte Zero-Shot-Generalisierung auf Out-of-Distribution-Evaluierungsbenchmarks. Diese Ergebnisse unterstreichen, dass die Priorisierung der Reinheit überwachter Signale eine signifikante Dateneffizienz ermöglicht und ein neues Paradigma für das Training robuster auditiver Foundation Models mit reduzierten Rechenkosten bietet. Code und Datensatz sind verfügbar unter https://shandaai.github.io/Hive.
English
Query-based universal sound separation is fundamental to intelligent auditory systems, aiming to isolate specific sources from mixtures. Despite recent advances, existing methods continue to suffer from residual interference in complex acoustic scenes. This performance limitation stems largely from a data bottleneck: in-the-wild datasets contain weak labels and severe co-occurrence of events. These flaws induce models to learn spurious correlations between background noise and target categories instead of robust acoustic features. To address this, we propose an automated pipeline that eliminates co-occurrence of events by mining high-purity single-event segments from in-the-wild datasets via a semantically consistent synthesis protocol. Utilizing this pipeline, we constructed Hive, a high-quality synthetic dataset comprising 2.4k hours of raw audio. Experimental results demonstrate that, compared with the state-of-the-art model SAM-Audio which was trained on a huge dataset sim500 times larger than Hive, certain open-source models trained on Hive achieve competitive separation accuracy and perceptual quality. Moreover, these models exhibited remarkable zero-shot generalization on out-of-distribution evaluation benchmarks. These findings highlight that prioritizing purity of supervised signals enables significant data efficiency, offering a new paradigm for training robust auditory foundation models with reduced computational costs. Code and dataset are available at https://shandaai.github.io/Hive.