Um Conjunto de Dados Semanticamente Consistente para Separação Universal de Sons Baseada em Consultas com Eficiência de Dados

Resumo

A separação universal de sons baseada em consultas é fundamental para sistemas auditivos inteligentes, visando isolar fontes específicas de misturas. Apesar dos avanços recentes, os métodos existentes continuam a sofrer com interferência residual em cenas acústicas complexas. Esta limitação de desempenho decorre largamente de um gargalo de dados: os conjuntos de dados do mundo real contêm rótulos fracos e uma co-ocorrência severa de eventos. Estas falhas induzem os modelos a aprender correlações espúrias entre ruído de fundo e categorias-alvo, em vez de características acústicas robustas. Para resolver isto, propomos um pipeline automatizado que elimina a co-ocorrência de eventos através da mineração de segmentos de evento único de alta pureza a partir de conjuntos de dados do mundo real, via um protocolo de síntese semanticamente consistente. Utilizando este pipeline, construímos o Hive, um conjunto de dados sintético de alta qualidade compreendendo 2,4 mil horas de áudio bruto. Resultados experimentais demonstram que, comparado com o modelo state-of-the-art SAM-Audio, que foi treinado num conjunto de dados enorme aproximadamente 500 vezes maior que o Hive, certos modelos de código aberto treinados no Hive alcançam precisão de separação e qualidade perceptual competitivas. Além disso, estes modelos exibiram uma generalização zero-shot notável em benchmarks de avaliação fora da distribuição. Estas descobertas destacam que priorizar a pureza dos sinais supervisionados permite uma significativa eficiência de dados, oferecendo um novo paradigma para treinar modelos de base auditivos robustos com custos computacionais reduzidos. O código e o conjunto de dados estão disponíveis em https://shandaai.github.io/Hive.

English

Query-based universal sound separation is fundamental to intelligent auditory systems, aiming to isolate specific sources from mixtures. Despite recent advances, existing methods continue to suffer from residual interference in complex acoustic scenes. This performance limitation stems largely from a data bottleneck: in-the-wild datasets contain weak labels and severe co-occurrence of events. These flaws induce models to learn spurious correlations between background noise and target categories instead of robust acoustic features. To address this, we propose an automated pipeline that eliminates co-occurrence of events by mining high-purity single-event segments from in-the-wild datasets via a semantically consistent synthesis protocol. Utilizing this pipeline, we constructed Hive, a high-quality synthetic dataset comprising 2.4k hours of raw audio. Experimental results demonstrate that, compared with the state-of-the-art model SAM-Audio which was trained on a huge dataset sim500 times larger than Hive, certain open-source models trained on Hive achieve competitive separation accuracy and perceptual quality. Moreover, these models exhibited remarkable zero-shot generalization on out-of-distribution evaluation benchmarks. These findings highlight that prioritizing purity of supervised signals enables significant data efficiency, offering a new paradigm for training robust auditory foundation models with reduced computational costs. Code and dataset are available at https://shandaai.github.io/Hive.

Um Conjunto de Dados Semanticamente Consistente para Separação Universal de Sons Baseada em Consultas com Eficiência de Dados

A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation

Resumo

Support