ChatPaper.aiChatPaper

의미론적 일관성을 갖춘 데이터 효율적인 쿼리 기반 범용 음향 분리 데이터셋

A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation

January 30, 2026
저자: Kai Li, Jintao Cheng, Chang Zeng, Zijun Yan, Helin Wang, Zixiong Su, Bo Zheng, Xiaolin Hu
cs.AI

초록

질의 기반 범용 음원 분리는 혼합 음원에서 특정 소리를 분리하는 것을 목표로 하는 지능형 청각 시스템의 핵심 기술입니다. 최근 발전에도 불구하고, 기존 방법들은 복잡한 음향 환경에서 잔여 간섭 문제를 지속적으로 겪고 있습니다. 이러한 성능 한계는 주로 데이터 병목 현상에서 비롯됩니다. 실제 환경 데이터셋은 약한 레이블과 심각한 사건 동시 발생 문제를 포함하고 있어, 모델이 강건한 음향 특징 대신 배경 잡음과 대상 범주 간의 허위 상관관계를 학습하게 만듭니다. 이를 해결하기 위해 우리는 의미론적으로 일관된 합성 프로토콜을 통해 실제 환경 데이터셋에서 고순도 단일 사건 세그먼트를 추출하여 사건 동시 발생을 제거하는 자동화 파이프라인을 제안합니다. 이 파이프라인을 활용하여 2,400시간의 원시 오디오로 구성된 고품질 합성 데이터셋인 Hive를 구축했습니다. 실험 결과, Hive보다 500배 큰 데이터셋으로 훈련된 최첨단 모델인 SAM-Audio와 비교했을 때, Hive로 훈련된 특정 오픈소스 모델들이 경쟁력 있는 분리 정확도와 지각적 품질을 달성함을 확인했습니다. 더 나아가 이러한 모델들은 분포 외 평가 벤치마크에서 뛰어난 제로샷 일반화 성능을 보였습니다. 이러한 결과는 지도 신호의 순도에 주목함으로써 데이터 효율성을 크게 높일 수 있음을 시사하며, 계산 비용을 절감하면서 강건한 청각 기초 모델을 훈련하는 새로운 패러다임을 제시합니다. 코드와 데이터셋은 https://shandaai.github.io/Hive에서 이용할 수 있습니다.
English
Query-based universal sound separation is fundamental to intelligent auditory systems, aiming to isolate specific sources from mixtures. Despite recent advances, existing methods continue to suffer from residual interference in complex acoustic scenes. This performance limitation stems largely from a data bottleneck: in-the-wild datasets contain weak labels and severe co-occurrence of events. These flaws induce models to learn spurious correlations between background noise and target categories instead of robust acoustic features. To address this, we propose an automated pipeline that eliminates co-occurrence of events by mining high-purity single-event segments from in-the-wild datasets via a semantically consistent synthesis protocol. Utilizing this pipeline, we constructed Hive, a high-quality synthetic dataset comprising 2.4k hours of raw audio. Experimental results demonstrate that, compared with the state-of-the-art model SAM-Audio which was trained on a huge dataset sim500 times larger than Hive, certain open-source models trained on Hive achieve competitive separation accuracy and perceptual quality. Moreover, these models exhibited remarkable zero-shot generalization on out-of-distribution evaluation benchmarks. These findings highlight that prioritizing purity of supervised signals enables significant data efficiency, offering a new paradigm for training robust auditory foundation models with reduced computational costs. Code and dataset are available at https://shandaai.github.io/Hive.
PDF42February 7, 2026