ChatPaper.aiChatPaper

セマンティック一貫性を有するデータ効率的なクエリベース普遍音響分離のためのデータセット

A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation

January 30, 2026
著者: Kai Li, Jintao Cheng, Chang Zeng, Zijun Yan, Helin Wang, Zixiong Su, Bo Zheng, Xiaolin Hu
cs.AI

要旨

クエリベースのユニバーサル音源分離は、混合音から特定の音源を分離することを目的とした、知能型聴覚システムの基盤技術である。近年の進展にもかかわらず、既存手法は複雑な音響環境において残留干渉に悩まされ続けている。この性能限界は、主にデータボトルネックに起因する:実世界データセットには弱いラベル付けや事象の重度の共起が含まれており、モデルが頑健な音響特徴ではなく背景雑音と目標カテゴリ間の擬似相関を学習する原因となっている。この問題に対処するため、我々は意味論的一貫性のある合成プロトコルにより実世界データセットから高純度単一事象セグメントをマイニングし、事象の共起を排除する自動化パイプラインを提案する。このパイプラインを利用し、2,400時間の生音声から構成される高品質合成データセットHiveを構築した。実験結果により、Hiveの500倍規模の大規模データセットで学習された最新モデルSAM-Audioと比較して、Hiveで学習した特定のオープンソースモデルが競争力のある分離精度と知覚品質を達成することが実証された。さらに、これらのモデルは分布外評価ベンチマークにおいて顕著なゼロショット一般化能力を示した。これらの知見は、教師信号の純度を優先することがデータ効率の大幅な向上を可能にし、計算コストを削減して頑健な聴覚基盤モデルを訓練する新たなパラダイムを提供することを強調する。コードとデータセットはhttps://shandaai.github.io/Hiveで公開されている。
English
Query-based universal sound separation is fundamental to intelligent auditory systems, aiming to isolate specific sources from mixtures. Despite recent advances, existing methods continue to suffer from residual interference in complex acoustic scenes. This performance limitation stems largely from a data bottleneck: in-the-wild datasets contain weak labels and severe co-occurrence of events. These flaws induce models to learn spurious correlations between background noise and target categories instead of robust acoustic features. To address this, we propose an automated pipeline that eliminates co-occurrence of events by mining high-purity single-event segments from in-the-wild datasets via a semantically consistent synthesis protocol. Utilizing this pipeline, we constructed Hive, a high-quality synthetic dataset comprising 2.4k hours of raw audio. Experimental results demonstrate that, compared with the state-of-the-art model SAM-Audio which was trained on a huge dataset sim500 times larger than Hive, certain open-source models trained on Hive achieve competitive separation accuracy and perceptual quality. Moreover, these models exhibited remarkable zero-shot generalization on out-of-distribution evaluation benchmarks. These findings highlight that prioritizing purity of supervised signals enables significant data efficiency, offering a new paradigm for training robust auditory foundation models with reduced computational costs. Code and dataset are available at https://shandaai.github.io/Hive.
PDF42February 7, 2026