SonicSim: Een aanpasbaar simulatieplatform voor spraakverwerking in scenario's met bewegende geluidsbronnen.
SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios
October 2, 2024
Auteurs: Kai Li, Wendi Sang, Chang Zeng, Runxuan Yang, Guo Chen, Xiaolin Hu
cs.AI
Samenvatting
De systematische evaluatie van spraakscheiding en -verbeteringsmodellen onder omstandigheden met bewegende geluidsbronnen vereist doorgaans uitgebreide gegevenssets met diverse scenario's. Echter, real-world datasets bevatten vaak onvoldoende gegevens om te voldoen aan de trainings- en evaluatievereisten van modellen. Hoewel synthetische datasets een grotere hoeveelheid gegevens bieden, ontbreekt het hun akoestische simulaties aan realisme. Hierdoor voldoen noch real-world noch synthetische datasets effectief aan praktische behoeften. Om deze problemen aan te pakken, introduceren we SonicSim, een synthetische toolkit ontworpen om zeer aanpasbare gegevens te genereren voor bewegende geluidsbronnen. SonicSim is ontwikkeld op basis van het embodied AI simulatieplatform, Habitat-sim, dat multi-level aanpassingen ondersteunt, waaronder scène-niveau, microfoon-niveau en bron-niveau, en zo meer diverse synthetische gegevens genereert. Door gebruik te maken van SonicSim hebben we een benchmark dataset voor bewegende geluidsbronnen geconstrueerd, SonicSet, met behulp van de Librispeech, de Freesound Dataset 50k (FSD50K) en Free Music Archive (FMA), en 90 scènes van de Matterport3D om spraakscheiding en -verbeteringsmodellen te evalueren. Daarnaast hebben we om de verschillen tussen synthetische gegevens en real-world gegevens te valideren, willekeurig 5 uur ruwe gegevens zonder galm geselecteerd uit de SonicSet validatieset om een real-world spraakscheiding dataset op te nemen, die vervolgens werd vergeleken met de overeenkomstige synthetische datasets. Op vergelijkbare wijze hebben we de real-world spraakverbeteringsdataset RealMAN gebruikt om het akoestische verschil tussen andere synthetische datasets en de SonicSet dataset voor spraakverbetering te valideren. De resultaten geven aan dat de synthetische gegevens gegenereerd door SonicSim effectief kunnen generaliseren naar real-world scenario's. Een demo en code zijn openbaar beschikbaar op https://cslikai.cn/SonicSim/.
English
The systematic evaluation of speech separation and enhancement models under
moving sound source conditions typically requires extensive data comprising
diverse scenarios. However, real-world datasets often contain insufficient data
to meet the training and evaluation requirements of models. Although synthetic
datasets offer a larger volume of data, their acoustic simulations lack
realism. Consequently, neither real-world nor synthetic datasets effectively
fulfill practical needs. To address these issues, we introduce SonicSim, a
synthetic toolkit de-designed to generate highly customizable data for moving
sound sources. SonicSim is developed based on the embodied AI simulation
platform, Habitat-sim, supporting multi-level adjustments, including
scene-level, microphone-level, and source-level, thereby generating more
diverse synthetic data. Leveraging SonicSim, we constructed a moving sound
source benchmark dataset, SonicSet, using the Librispeech, the Freesound
Dataset 50k (FSD50K) and Free Music Archive (FMA), and 90 scenes from the
Matterport3D to evaluate speech separation and enhancement models.
Additionally, to validate the differences between synthetic data and real-world
data, we randomly selected 5 hours of raw data without reverberation from the
SonicSet validation set to record a real-world speech separation dataset, which
was then compared with the corresponding synthetic datasets. Similarly, we
utilized the real-world speech enhancement dataset RealMAN to validate the
acoustic gap between other synthetic datasets and the SonicSet dataset for
speech enhancement. The results indicate that the synthetic data generated by
SonicSim can effectively generalize to real-world scenarios. Demo and code are
publicly available at https://cslikai.cn/SonicSim/.Summary
AI-Generated Summary