ChatPaper.aiChatPaper

SonicSim: Una piattaforma di simulazione personalizzabile per l'elaborazione del linguaggio in scenari con sorgenti sonore in movimento.

SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios

October 2, 2024
Autori: Kai Li, Wendi Sang, Chang Zeng, Runxuan Yang, Guo Chen, Xiaolin Hu
cs.AI

Abstract

La valutazione sistematica dei modelli di separazione ed enfatizzazione del parlato in condizioni di sorgente sonora in movimento richiede tipicamente un'ampia quantità di dati che comprendono scenari diversi. Tuttavia, i dataset del mondo reale spesso contengono dati insufficienti per soddisfare i requisiti di addestramento e valutazione dei modelli. Anche se i dataset sintetici offrono un maggior volume di dati, le loro simulazioni acustiche mancano di realismo. Di conseguenza, né i dataset del mondo reale né quelli sintetici soddisfano efficacemente le esigenze pratiche. Per affrontare questi problemi, presentiamo SonicSim, un toolkit sintetico progettato per generare dati altamente personalizzabili per sorgenti sonore in movimento. SonicSim è sviluppato sulla piattaforma di simulazione di intelligenza incorporata Habitat-sim, che supporta regolazioni a più livelli, inclusi il livello della scena, il livello del microfono e il livello della sorgente, generando così dati sintetici più diversificati. Sfruttando SonicSim, abbiamo costruito un dataset di benchmark per sorgenti sonore in movimento, SonicSet, utilizzando Librispeech, il Freesound Dataset 50k (FSD50K) e il Free Music Archive (FMA), e 90 scene del Matterport3D per valutare i modelli di separazione ed enfatizzazione del parlato. Inoltre, per convalidare le differenze tra i dati sintetici e quelli del mondo reale, abbiamo selezionato casualmente 5 ore di dati grezzi senza riverberazione dal set di convalida di SonicSet per registrare un dataset di separazione del parlato del mondo reale, che è stato poi confrontato con i dataset sintetici corrispondenti. Allo stesso modo, abbiamo utilizzato il dataset di enfatizzazione del parlato del mondo reale RealMAN per convalidare il divario acustico tra gli altri dataset sintetici e il dataset SonicSet per l'enfatizzazione del parlato. I risultati indicano che i dati sintetici generati da SonicSim possono generalizzare efficacemente a scenari del mondo reale. La demo e il codice sono disponibili pubblicamente su https://cslikai.cn/SonicSim/.
English
The systematic evaluation of speech separation and enhancement models under moving sound source conditions typically requires extensive data comprising diverse scenarios. However, real-world datasets often contain insufficient data to meet the training and evaluation requirements of models. Although synthetic datasets offer a larger volume of data, their acoustic simulations lack realism. Consequently, neither real-world nor synthetic datasets effectively fulfill practical needs. To address these issues, we introduce SonicSim, a synthetic toolkit de-designed to generate highly customizable data for moving sound sources. SonicSim is developed based on the embodied AI simulation platform, Habitat-sim, supporting multi-level adjustments, including scene-level, microphone-level, and source-level, thereby generating more diverse synthetic data. Leveraging SonicSim, we constructed a moving sound source benchmark dataset, SonicSet, using the Librispeech, the Freesound Dataset 50k (FSD50K) and Free Music Archive (FMA), and 90 scenes from the Matterport3D to evaluate speech separation and enhancement models. Additionally, to validate the differences between synthetic data and real-world data, we randomly selected 5 hours of raw data without reverberation from the SonicSet validation set to record a real-world speech separation dataset, which was then compared with the corresponding synthetic datasets. Similarly, we utilized the real-world speech enhancement dataset RealMAN to validate the acoustic gap between other synthetic datasets and the SonicSet dataset for speech enhancement. The results indicate that the synthetic data generated by SonicSim can effectively generalize to real-world scenarios. Demo and code are publicly available at https://cslikai.cn/SonicSim/.
PDF32November 16, 2024