Een Semantisch Consistente Dataset voor Data-Efficiënte Query-Gebaseerde Universele Geluidscheiding

Samenvatting

Op vragen gebaseerde universele geluidsseparatie is fundamenteel voor intelligente auditieve systemen, met als doel specifieke bronnen uit mengsels te isoleren. Ondanks recente vooruitgang lijden bestaande methoden nog steeds onder restinterferentie in complexe akoestische scènes. Deze prestatiebeperking komt grotendeels voort uit een dataknelpunt: datasets uit de praktijk bevatten zwakke labels en ernstige co-voorkomen van gebeurtenissen. Deze tekortkomingen leiden ertoe dat modellen valse correlaties tussen achtergrondruis en doelcategorieën leren in plaats van robuuste akoestische kenmerken. Om dit aan te pakken, stellen we een geautomatiseerde pijplijn voor die het co-voorkomen van gebeurtenissen elimineert door hoogzuivere segmenten met enkele gebeurtenissen te delven uit praktijkdatasets via een semantisch consistente syntheseprotocol. Met behulp van deze pijplijn construeerden we Hive, een hoogwaardige synthetische dataset bestaande uit 2,4 duizend uur ruwe audio. Experimentele resultaten tonen aan dat, vergeleken met het state-of-the-art model SAM-Audio dat werd getraind op een enorme dataset ongeveer 500 keer groter dan Hive, bepaalde open-source modellen getraind op Hive competitieve scheidingsnauwkeurigheid en perceptuele kwaliteit bereiken. Bovendien vertoonden deze modellen opmerkelijke zero-shot generalisatie op out-of-distribution evaluatiebenchmarks. Deze bevindingen benadrukken dat het prioriteren van zuiverheid van begeleidende signalen aanzienlijke data-efficiëntie mogelijk maakt, wat een nieuw paradigma biedt voor het trainen van robuuste auditieve foundation modellen met gereduceerde rekenkosten. Code en dataset zijn beschikbaar op https://shandaai.github.io/Hive.

English

Query-based universal sound separation is fundamental to intelligent auditory systems, aiming to isolate specific sources from mixtures. Despite recent advances, existing methods continue to suffer from residual interference in complex acoustic scenes. This performance limitation stems largely from a data bottleneck: in-the-wild datasets contain weak labels and severe co-occurrence of events. These flaws induce models to learn spurious correlations between background noise and target categories instead of robust acoustic features. To address this, we propose an automated pipeline that eliminates co-occurrence of events by mining high-purity single-event segments from in-the-wild datasets via a semantically consistent synthesis protocol. Utilizing this pipeline, we constructed Hive, a high-quality synthetic dataset comprising 2.4k hours of raw audio. Experimental results demonstrate that, compared with the state-of-the-art model SAM-Audio which was trained on a huge dataset sim500 times larger than Hive, certain open-source models trained on Hive achieve competitive separation accuracy and perceptual quality. Moreover, these models exhibited remarkable zero-shot generalization on out-of-distribution evaluation benchmarks. These findings highlight that prioritizing purity of supervised signals enables significant data efficiency, offering a new paradigm for training robust auditory foundation models with reduced computational costs. Code and dataset are available at https://shandaai.github.io/Hive.

Een Semantisch Consistente Dataset voor Data-Efficiënte Query-Gebaseerde Universele Geluidscheiding

A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation

Samenvatting

Support