SonicSim: Uma plataforma de simulação personalizável para processamento de fala em cenários de fontes sonoras em movimento.
SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios
October 2, 2024
Autores: Kai Li, Wendi Sang, Chang Zeng, Runxuan Yang, Guo Chen, Xiaolin Hu
cs.AI
Resumo
A avaliação sistemática de modelos de separação e aprimoramento de fala sob condições de fonte sonora em movimento geralmente requer dados extensos que compreendem cenários diversos. No entanto, conjuntos de dados do mundo real frequentemente contêm dados insuficientes para atender aos requisitos de treinamento e avaliação dos modelos. Embora conjuntos de dados sintéticos ofereçam um volume maior de dados, suas simulações acústicas carecem de realismo. Consequentemente, nem conjuntos de dados do mundo real nem sintéticos atendem efetivamente às necessidades práticas. Para lidar com essas questões, apresentamos o SonicSim, um conjunto de ferramentas sintéticas projetado para gerar dados altamente personalizáveis para fontes sonoras em movimento. O SonicSim é desenvolvido com base na plataforma de simulação de IA incorporada, Habitat-sim, oferecendo ajustes em vários níveis, incluindo nível de cena, nível de microfone e nível de fonte, gerando assim dados sintéticos mais diversos. Aproveitando o SonicSim, construímos um conjunto de dados de referência de fonte sonora em movimento, o SonicSet, usando o Librispeech, o Conjunto de Dados Freesound 50k (FSD50K) e o Free Music Archive (FMA), e 90 cenas do Matterport3D para avaliar modelos de separação e aprimoramento de fala. Além disso, para validar as diferenças entre dados sintéticos e dados do mundo real, selecionamos aleatoriamente 5 horas de dados brutos sem reverberação do conjunto de validação do SonicSet para gravar um conjunto de dados de separação de fala do mundo real, que foi então comparado com os conjuntos de dados sintéticos correspondentes. Da mesma forma, utilizamos o conjunto de dados de aprimoramento de fala do mundo real, RealMAN, para validar a diferença acústica entre outros conjuntos de dados sintéticos e o conjunto de dados SonicSet para aprimoramento de fala. Os resultados indicam que os dados sintéticos gerados pelo SonicSim podem generalizar efetivamente para cenários do mundo real. A demonstração e o código estão disponíveis publicamente em https://cslikai.cn/SonicSim/.
English
The systematic evaluation of speech separation and enhancement models under
moving sound source conditions typically requires extensive data comprising
diverse scenarios. However, real-world datasets often contain insufficient data
to meet the training and evaluation requirements of models. Although synthetic
datasets offer a larger volume of data, their acoustic simulations lack
realism. Consequently, neither real-world nor synthetic datasets effectively
fulfill practical needs. To address these issues, we introduce SonicSim, a
synthetic toolkit de-designed to generate highly customizable data for moving
sound sources. SonicSim is developed based on the embodied AI simulation
platform, Habitat-sim, supporting multi-level adjustments, including
scene-level, microphone-level, and source-level, thereby generating more
diverse synthetic data. Leveraging SonicSim, we constructed a moving sound
source benchmark dataset, SonicSet, using the Librispeech, the Freesound
Dataset 50k (FSD50K) and Free Music Archive (FMA), and 90 scenes from the
Matterport3D to evaluate speech separation and enhancement models.
Additionally, to validate the differences between synthetic data and real-world
data, we randomly selected 5 hours of raw data without reverberation from the
SonicSet validation set to record a real-world speech separation dataset, which
was then compared with the corresponding synthetic datasets. Similarly, we
utilized the real-world speech enhancement dataset RealMAN to validate the
acoustic gap between other synthetic datasets and the SonicSet dataset for
speech enhancement. The results indicate that the synthetic data generated by
SonicSim can effectively generalize to real-world scenarios. Demo and code are
publicly available at https://cslikai.cn/SonicSim/.