ChatPaper.aiChatPaper

SonicSim:移動音源シナリオにおける音声処理のためのカスタマイズ可能なシミュレーションプラットフォーム

SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios

October 2, 2024
著者: Kai Li, Wendi Sang, Chang Zeng, Runxuan Yang, Guo Chen, Xiaolin Hu
cs.AI

要旨

移動音源条件下での音声分離と音声強調モデルの体系的評価には、通常、多様なシナリオを含む広範なデータが必要とされます。しかし、現実世界のデータセットには、モデルの訓練と評価要件を満たすのに十分なデータが不足していることがよくあります。合成データセットはデータ量が多いものの、その音響シミュレーションには現実感が欠けています。そのため、現実世界のデータセットも合成データセットも実用上のニーズを効果的に満たすことができません。これらの課題に対処するために、移動音源のための高度にカスタマイズ可能なデータを生成するために設計された合成ツールキットであるSonicSimを紹介します。SonicSimは、エンボディドAIシミュレーションプラットフォームであるHabitat-simに基づいて開発されており、シーンレベル、マイクロフォンレベル、音源レベルを含む多レベルの調整をサポートしており、より多様な合成データを生成します。SonicSimを活用して、Librispeech、Freesound Dataset 50k(FSD50K)、Free Music Archive(FMA)からのデータとMatterport3Dからの90シーンを使用して、音声分離と音声強調モデルを評価するための移動音源ベンチマークデータセットであるSonicSetを構築しました。さらに、合成データと現実世界のデータの違いを検証するために、SonicSetの検証セットから残響のない生データ5時間をランダムに選択し、それを使用して実世界の音声分離データセットを記録し、それを対応する合成データセットと比較しました。同様に、他の合成データセットとSonicSetデータセットとの間の音声強調のための音響的ギャップを検証するために、実世界の音声強調データセットRealMANを利用しました。その結果、SonicSimによって生成された合成データが実世界のシナリオに効果的に一般化できることが示されました。デモとコードは、https://cslikai.cn/SonicSim/ で公開されています。
English
The systematic evaluation of speech separation and enhancement models under moving sound source conditions typically requires extensive data comprising diverse scenarios. However, real-world datasets often contain insufficient data to meet the training and evaluation requirements of models. Although synthetic datasets offer a larger volume of data, their acoustic simulations lack realism. Consequently, neither real-world nor synthetic datasets effectively fulfill practical needs. To address these issues, we introduce SonicSim, a synthetic toolkit de-designed to generate highly customizable data for moving sound sources. SonicSim is developed based on the embodied AI simulation platform, Habitat-sim, supporting multi-level adjustments, including scene-level, microphone-level, and source-level, thereby generating more diverse synthetic data. Leveraging SonicSim, we constructed a moving sound source benchmark dataset, SonicSet, using the Librispeech, the Freesound Dataset 50k (FSD50K) and Free Music Archive (FMA), and 90 scenes from the Matterport3D to evaluate speech separation and enhancement models. Additionally, to validate the differences between synthetic data and real-world data, we randomly selected 5 hours of raw data without reverberation from the SonicSet validation set to record a real-world speech separation dataset, which was then compared with the corresponding synthetic datasets. Similarly, we utilized the real-world speech enhancement dataset RealMAN to validate the acoustic gap between other synthetic datasets and the SonicSet dataset for speech enhancement. The results indicate that the synthetic data generated by SonicSim can effectively generalize to real-world scenarios. Demo and code are publicly available at https://cslikai.cn/SonicSim/.

Summary

AI-Generated Summary

PDF32November 16, 2024