ChatPaper.aiChatPaper

SonicSim : Une plateforme de simulation personnalisable pour le traitement de la parole dans des scénarios de sources sonores en mouvement

SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios

October 2, 2024
Auteurs: Kai Li, Wendi Sang, Chang Zeng, Runxuan Yang, Guo Chen, Xiaolin Hu
cs.AI

Résumé

L'évaluation systématique des modèles de séparation et d'amélioration de la parole dans des conditions de source sonore en mouvement nécessite généralement des données étendues comprenant divers scénarios. Cependant, les ensembles de données du monde réel contiennent souvent des données insuffisantes pour répondre aux exigences d'entraînement et d'évaluation des modèles. Bien que les ensembles de données synthétiques offrent un plus grand volume de données, leurs simulations acoustiques manquent de réalisme. Par conséquent, ni les ensembles de données du monde réel ni les ensembles de données synthétiques ne répondent efficacement aux besoins pratiques. Pour résoudre ces problèmes, nous présentons SonicSim, une boîte à outils synthétique conçue pour générer des données hautement personnalisables pour des sources sonores en mouvement. SonicSim est développé sur la plateforme de simulation d'IA incarnée, Habitat-sim, prenant en charge des ajustements multi-niveaux, y compris au niveau de la scène, du microphone et de la source, générant ainsi des données synthétiques plus diverses. En exploitant SonicSim, nous avons construit un ensemble de données de référence pour les sources sonores en mouvement, SonicSet, en utilisant Librispeech, le jeu de données Freesound 50k (FSD50K) et Free Music Archive (FMA), ainsi que 90 scènes de Matterport3D pour évaluer les modèles de séparation et d'amélioration de la parole. De plus, pour valider les différences entre les données synthétiques et les données du monde réel, nous avons sélectionné de manière aléatoire 5 heures de données brutes sans réverbération de l'ensemble de validation SonicSet pour enregistrer un ensemble de données de séparation de parole du monde réel, qui a ensuite été comparé aux ensembles de données synthétiques correspondants. De même, nous avons utilisé l'ensemble de données d'amélioration de la parole du monde réel, RealMAN, pour valider l'écart acoustique entre d'autres ensembles de données synthétiques et l'ensemble de données SonicSet pour l'amélioration de la parole. Les résultats indiquent que les données synthétiques générées par SonicSim peuvent généraliser efficacement aux scénarios du monde réel. Une démo et le code sont disponibles publiquement sur https://cslikai.cn/SonicSim/.
English
The systematic evaluation of speech separation and enhancement models under moving sound source conditions typically requires extensive data comprising diverse scenarios. However, real-world datasets often contain insufficient data to meet the training and evaluation requirements of models. Although synthetic datasets offer a larger volume of data, their acoustic simulations lack realism. Consequently, neither real-world nor synthetic datasets effectively fulfill practical needs. To address these issues, we introduce SonicSim, a synthetic toolkit de-designed to generate highly customizable data for moving sound sources. SonicSim is developed based on the embodied AI simulation platform, Habitat-sim, supporting multi-level adjustments, including scene-level, microphone-level, and source-level, thereby generating more diverse synthetic data. Leveraging SonicSim, we constructed a moving sound source benchmark dataset, SonicSet, using the Librispeech, the Freesound Dataset 50k (FSD50K) and Free Music Archive (FMA), and 90 scenes from the Matterport3D to evaluate speech separation and enhancement models. Additionally, to validate the differences between synthetic data and real-world data, we randomly selected 5 hours of raw data without reverberation from the SonicSet validation set to record a real-world speech separation dataset, which was then compared with the corresponding synthetic datasets. Similarly, we utilized the real-world speech enhancement dataset RealMAN to validate the acoustic gap between other synthetic datasets and the SonicSet dataset for speech enhancement. The results indicate that the synthetic data generated by SonicSim can effectively generalize to real-world scenarios. Demo and code are publicly available at https://cslikai.cn/SonicSim/.

Summary

AI-Generated Summary

PDF32November 16, 2024