SonicSim: Una plataforma de simulación personalizable para el procesamiento del habla en escenarios con fuentes de sonido en movimiento

Resumen

La evaluación sistemática de modelos de separación y mejora del habla bajo condiciones de fuente de sonido en movimiento típicamente requiere una extensa cantidad de datos que abarquen diversos escenarios. Sin embargo, los conjuntos de datos del mundo real a menudo contienen datos insuficientes para cumplir con los requisitos de entrenamiento y evaluación de los modelos. Aunque los conjuntos de datos sintéticos ofrecen un mayor volumen de datos, sus simulaciones acústicas carecen de realismo. En consecuencia, ni los conjuntos de datos del mundo real ni los sintéticos satisfacen eficazmente las necesidades prácticas. Para abordar estos problemas, presentamos SonicSim, un conjunto de herramientas sintéticas diseñado para generar datos altamente personalizables para fuentes de sonido en movimiento. SonicSim se desarrolló basado en la plataforma de simulación de IA incorporada, Habitat-sim, que admite ajustes a múltiples niveles, incluidos el nivel de escena, el nivel de micrófono y el nivel de fuente, generando así datos sintéticos más diversos. Aprovechando SonicSim, construimos un conjunto de datos de referencia de fuentes de sonido en movimiento, SonicSet, utilizando Librispeech, el conjunto de datos Freesound 50k (FSD50K) y Free Music Archive (FMA), y 90 escenas de Matterport3D para evaluar modelos de separación y mejora del habla. Además, para validar las diferencias entre datos sintéticos y datos del mundo real, seleccionamos aleatoriamente 5 horas de datos sin reverberación del conjunto de validación de SonicSet para grabar un conjunto de datos de separación del habla del mundo real, que luego se comparó con los conjuntos de datos sintéticos correspondientes. De manera similar, utilizamos el conjunto de datos de mejora del habla del mundo real, RealMAN, para validar la brecha acústica entre otros conjuntos de datos sintéticos y el conjunto de datos SonicSet para la mejora del habla. Los resultados indican que los datos sintéticos generados por SonicSim pueden generalizarse efectivamente a escenarios del mundo real. La demostración y el código están disponibles públicamente en https://cslikai.cn/SonicSim/.

English

The systematic evaluation of speech separation and enhancement models under moving sound source conditions typically requires extensive data comprising diverse scenarios. However, real-world datasets often contain insufficient data to meet the training and evaluation requirements of models. Although synthetic datasets offer a larger volume of data, their acoustic simulations lack realism. Consequently, neither real-world nor synthetic datasets effectively fulfill practical needs. To address these issues, we introduce SonicSim, a synthetic toolkit de-designed to generate highly customizable data for moving sound sources. SonicSim is developed based on the embodied AI simulation platform, Habitat-sim, supporting multi-level adjustments, including scene-level, microphone-level, and source-level, thereby generating more diverse synthetic data. Leveraging SonicSim, we constructed a moving sound source benchmark dataset, SonicSet, using the Librispeech, the Freesound Dataset 50k (FSD50K) and Free Music Archive (FMA), and 90 scenes from the Matterport3D to evaluate speech separation and enhancement models. Additionally, to validate the differences between synthetic data and real-world data, we randomly selected 5 hours of raw data without reverberation from the SonicSet validation set to record a real-world speech separation dataset, which was then compared with the corresponding synthetic datasets. Similarly, we utilized the real-world speech enhancement dataset RealMAN to validate the acoustic gap between other synthetic datasets and the SonicSet dataset for speech enhancement. The results indicate that the synthetic data generated by SonicSim can effectively generalize to real-world scenarios. Demo and code are publicly available at https://cslikai.cn/SonicSim/.

SonicSim: Una plataforma de simulación personalizable para el procesamiento del habla en escenarios con fuentes de sonido en movimiento

SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios

Resumen

Support