SonicSim: Una plataforma de simulación personalizable para el procesamiento del habla en escenarios con fuentes de sonido en movimiento
SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios
October 2, 2024
Autores: Kai Li, Wendi Sang, Chang Zeng, Runxuan Yang, Guo Chen, Xiaolin Hu
cs.AI
Resumen
La evaluación sistemática de modelos de separación y mejora del habla bajo condiciones de fuente de sonido en movimiento típicamente requiere una extensa cantidad de datos que abarquen diversos escenarios. Sin embargo, los conjuntos de datos del mundo real a menudo contienen datos insuficientes para cumplir con los requisitos de entrenamiento y evaluación de los modelos. Aunque los conjuntos de datos sintéticos ofrecen un mayor volumen de datos, sus simulaciones acústicas carecen de realismo. En consecuencia, ni los conjuntos de datos del mundo real ni los sintéticos satisfacen eficazmente las necesidades prácticas. Para abordar estos problemas, presentamos SonicSim, un conjunto de herramientas sintéticas diseñado para generar datos altamente personalizables para fuentes de sonido en movimiento. SonicSim se desarrolló basado en la plataforma de simulación de IA incorporada, Habitat-sim, que admite ajustes a múltiples niveles, incluidos el nivel de escena, el nivel de micrófono y el nivel de fuente, generando así datos sintéticos más diversos. Aprovechando SonicSim, construimos un conjunto de datos de referencia de fuentes de sonido en movimiento, SonicSet, utilizando Librispeech, el conjunto de datos Freesound 50k (FSD50K) y Free Music Archive (FMA), y 90 escenas de Matterport3D para evaluar modelos de separación y mejora del habla. Además, para validar las diferencias entre datos sintéticos y datos del mundo real, seleccionamos aleatoriamente 5 horas de datos sin reverberación del conjunto de validación de SonicSet para grabar un conjunto de datos de separación del habla del mundo real, que luego se comparó con los conjuntos de datos sintéticos correspondientes. De manera similar, utilizamos el conjunto de datos de mejora del habla del mundo real, RealMAN, para validar la brecha acústica entre otros conjuntos de datos sintéticos y el conjunto de datos SonicSet para la mejora del habla. Los resultados indican que los datos sintéticos generados por SonicSim pueden generalizarse efectivamente a escenarios del mundo real. La demostración y el código están disponibles públicamente en https://cslikai.cn/SonicSim/.
English
The systematic evaluation of speech separation and enhancement models under
moving sound source conditions typically requires extensive data comprising
diverse scenarios. However, real-world datasets often contain insufficient data
to meet the training and evaluation requirements of models. Although synthetic
datasets offer a larger volume of data, their acoustic simulations lack
realism. Consequently, neither real-world nor synthetic datasets effectively
fulfill practical needs. To address these issues, we introduce SonicSim, a
synthetic toolkit de-designed to generate highly customizable data for moving
sound sources. SonicSim is developed based on the embodied AI simulation
platform, Habitat-sim, supporting multi-level adjustments, including
scene-level, microphone-level, and source-level, thereby generating more
diverse synthetic data. Leveraging SonicSim, we constructed a moving sound
source benchmark dataset, SonicSet, using the Librispeech, the Freesound
Dataset 50k (FSD50K) and Free Music Archive (FMA), and 90 scenes from the
Matterport3D to evaluate speech separation and enhancement models.
Additionally, to validate the differences between synthetic data and real-world
data, we randomly selected 5 hours of raw data without reverberation from the
SonicSet validation set to record a real-world speech separation dataset, which
was then compared with the corresponding synthetic datasets. Similarly, we
utilized the real-world speech enhancement dataset RealMAN to validate the
acoustic gap between other synthetic datasets and the SonicSet dataset for
speech enhancement. The results indicate that the synthetic data generated by
SonicSim can effectively generalize to real-world scenarios. Demo and code are
publicly available at https://cslikai.cn/SonicSim/.Summary
AI-Generated Summary