ChatPaper.aiChatPaper

Un Conjunto de Datos Semánticamente Consistente para la Separación Universal de Sonidos Basada en Consultas con Uso Eficiente de Datos

A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation

January 30, 2026
Autores: Kai Li, Jintao Cheng, Chang Zeng, Zijun Yan, Helin Wang, Zixiong Su, Bo Zheng, Xiaolin Hu
cs.AI

Resumen

La separación universal de sonidos basada en consultas es fundamental para los sistemas auditivos inteligentes, con el objetivo de aislar fuentes específicas de mezclas. A pesar de los avances recientes, los métodos existentes continúan adoleciendo de interferencia residual en escenas acústicas complejas. Esta limitación de rendimiento proviene en gran medida de un cuello de botella de datos: los conjuntos de datos del mundo real contienen etiquetas débiles y una severa co-ocurrencia de eventos. Estas deficiencias inducen a los modelos a aprender correlaciones espurias entre el ruido de fondo y las categorías objetivo, en lugar de características acústicas robustas. Para abordar esto, proponemos un pipeline automatizado que elimina la co-ocurrencia de eventos mediante la extracción de segmentos de evento único de alta pureza de conjuntos de datos del mundo real, a través de un protocolo de síntesis semánticamente consistente. Utilizando este pipeline, construimos Hive, un conjunto de datos sintético de alta calidad que comprende 2.400 horas de audio crudo. Los resultados experimentales demuestran que, en comparación con el modelo de última generación SAM-Audio, que fue entrenado en un conjunto de datos enorme aproximadamente 500 veces más grande que Hive, ciertos modelos de código abierto entrenados en Hive logran una precisión de separación y una calidad perceptual competitivas. Además, estos modelos exhibieron una notable generalización zero-shot en benchmarks de evaluación fuera de distribución. Estos hallazgos resaltan que priorizar la pureza de las señales supervisadas permite una eficiencia de datos significativa, ofreciendo un nuevo paradigma para entrenar modelos de base auditivos robustos con costos computacionales reducidos. El código y el conjunto de datos están disponibles en https://shandaai.github.io/Hive.
English
Query-based universal sound separation is fundamental to intelligent auditory systems, aiming to isolate specific sources from mixtures. Despite recent advances, existing methods continue to suffer from residual interference in complex acoustic scenes. This performance limitation stems largely from a data bottleneck: in-the-wild datasets contain weak labels and severe co-occurrence of events. These flaws induce models to learn spurious correlations between background noise and target categories instead of robust acoustic features. To address this, we propose an automated pipeline that eliminates co-occurrence of events by mining high-purity single-event segments from in-the-wild datasets via a semantically consistent synthesis protocol. Utilizing this pipeline, we constructed Hive, a high-quality synthetic dataset comprising 2.4k hours of raw audio. Experimental results demonstrate that, compared with the state-of-the-art model SAM-Audio which was trained on a huge dataset sim500 times larger than Hive, certain open-source models trained on Hive achieve competitive separation accuracy and perceptual quality. Moreover, these models exhibited remarkable zero-shot generalization on out-of-distribution evaluation benchmarks. These findings highlight that prioritizing purity of supervised signals enables significant data efficiency, offering a new paradigm for training robust auditory foundation models with reduced computational costs. Code and dataset are available at https://shandaai.github.io/Hive.
PDF42February 7, 2026