Un jeu de données sémantiquement cohérent pour la séparation sonore universelle par requête efficace en données
A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation
January 30, 2026
papers.authors: Kai Li, Jintao Cheng, Chang Zeng, Zijun Yan, Helin Wang, Zixiong Su, Bo Zheng, Xiaolin Hu
cs.AI
papers.abstract
La séparation sonore universelle basée sur des requêtes est fondamentale pour les systèmes auditifs intelligents, visant à isoler des sources spécifiques à partir de mélanges. Malgré les progrès récents, les méthodes existantes continuent de souffrir d'interférences résiduelles dans les scènes acoustiques complexes. Cette limitation de performance découle largement d'un goulot d'étranglement lié aux données : les ensembles de données « in-the-wild » contiennent des étiquettes faibles et une co-occurrence sévère d'événements. Ces défauts amènent les modèles à apprendre des corrélations fallacieuses entre le bruit de fond et les catégories cibles, plutôt que des caractéristiques acoustiques robustes. Pour remédier à cela, nous proposons une pipeline automatisée qui élimine la co-occurrence d'événements en extrayant des segments à événement unique de haute pureté à partir d'ensembles de données « in-the-wild » via un protocole de synthèse sémantiquement cohérent. En utilisant cette pipeline, nous avons construit Hive, un ensemble de données synthétiques de haute qualité comprenant 2,4k heures d'audio brut. Les résultats expérimentaux démontrent que, par rapport au modèle state-of-the-art SAM-Audio qui a été entraîné sur un énorme ensemble de données environ 500 fois plus grand que Hive, certains modèles open-source entraînés sur Hive atteignent une précision de séparation et une qualité perceptive compétitives. De plus, ces modèles ont montré une généralisation zero-shot remarquable sur des benchmarks d'évaluation hors distribution. Ces résultats soulignent que la priorisation de la pureté des signaux supervisés permet une efficacité significative des données, offrant un nouveau paradigme pour l'entraînement de modèles de fondation auditifs robustes avec des coûts de calcul réduits. Le code et l'ensemble de données sont disponibles à l'adresse https://shandaai.github.io/Hive.
English
Query-based universal sound separation is fundamental to intelligent auditory systems, aiming to isolate specific sources from mixtures. Despite recent advances, existing methods continue to suffer from residual interference in complex acoustic scenes. This performance limitation stems largely from a data bottleneck: in-the-wild datasets contain weak labels and severe co-occurrence of events. These flaws induce models to learn spurious correlations between background noise and target categories instead of robust acoustic features. To address this, we propose an automated pipeline that eliminates co-occurrence of events by mining high-purity single-event segments from in-the-wild datasets via a semantically consistent synthesis protocol. Utilizing this pipeline, we constructed Hive, a high-quality synthetic dataset comprising 2.4k hours of raw audio. Experimental results demonstrate that, compared with the state-of-the-art model SAM-Audio which was trained on a huge dataset sim500 times larger than Hive, certain open-source models trained on Hive achieve competitive separation accuracy and perceptual quality. Moreover, these models exhibited remarkable zero-shot generalization on out-of-distribution evaluation benchmarks. These findings highlight that prioritizing purity of supervised signals enables significant data efficiency, offering a new paradigm for training robust auditory foundation models with reduced computational costs. Code and dataset are available at https://shandaai.github.io/Hive.