Un Dataset Semanticamente Coerente per la Separazione Universale dei Suoni Basata su Query con Uso Efficiente dei Dati

Abstract

La separazione sonora universale basata su query è fondamentale per i sistemi uditivi intelligenti, con l'obiettivo di isolare sorgenti specifiche da miscele. Nonostante i recenti progressi, i metodi esistenti continuano a soffrire di interferenze residue in scenari acustici complessi. Questa limitazione prestazionale deriva principalmente da un collo di bottiglia dati: i dataset reali contengono etichette deboli e una severa co-occorrenza di eventi. Questi difetti inducono i modelli ad apprendere correlazioni spurie tra rumore di fondo e categorie target invece di caratteristiche acustiche robuste. Per affrontare questo problema, proponiamo una pipeline automatizzata che elimina la co-occorrenza di eventi estraendo segmenti di eventi singoli ad alta purezza da dataset reali attraverso un protocollo di sintesi semanticamente coerente. Utilizzando questa pipeline, abbiamo costruito Hive, un dataset sintetico di alta qualità comprendente 2.4k ore di audio grezzo. I risultati sperimentali dimostrano che, rispetto al modello all'avanguardia SAM-Audio addestrato su un dataset enorme circa 500 volte più grande di Hive, alcuni modelli open-source addestrati su Hive raggiungono un'accuratezza di separazione competitiva e una qualità percettiva paragonabile. Inoltre, questi modelli hanno mostrato una notevole generalizzazione zero-shot su benchmark di valutazione out-of-distribution. Questi risultati evidenziano che la priorità alla purezza dei segnali supervisionati consente una significativa efficienza dei dati, offrendo un nuovo paradigma per l'addestramento di modelli uditivi fondazionali robusti con costi computazionali ridotti. Codice e dataset sono disponibili su https://shandaai.github.io/Hive.

English

Query-based universal sound separation is fundamental to intelligent auditory systems, aiming to isolate specific sources from mixtures. Despite recent advances, existing methods continue to suffer from residual interference in complex acoustic scenes. This performance limitation stems largely from a data bottleneck: in-the-wild datasets contain weak labels and severe co-occurrence of events. These flaws induce models to learn spurious correlations between background noise and target categories instead of robust acoustic features. To address this, we propose an automated pipeline that eliminates co-occurrence of events by mining high-purity single-event segments from in-the-wild datasets via a semantically consistent synthesis protocol. Utilizing this pipeline, we constructed Hive, a high-quality synthetic dataset comprising 2.4k hours of raw audio. Experimental results demonstrate that, compared with the state-of-the-art model SAM-Audio which was trained on a huge dataset sim500 times larger than Hive, certain open-source models trained on Hive achieve competitive separation accuracy and perceptual quality. Moreover, these models exhibited remarkable zero-shot generalization on out-of-distribution evaluation benchmarks. These findings highlight that prioritizing purity of supervised signals enables significant data efficiency, offering a new paradigm for training robust auditory foundation models with reduced computational costs. Code and dataset are available at https://shandaai.github.io/Hive.

Un Dataset Semanticamente Coerente per la Separazione Universale dei Suoni Basata su Query con Uso Efficiente dei Dati

A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation

Abstract

Support