SonicSim: настраиваемая платформа симуляции для обработки речи в сценариях с движущимися источниками звука
SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios
October 2, 2024
Авторы: Kai Li, Wendi Sang, Chang Zeng, Runxuan Yang, Guo Chen, Xiaolin Hu
cs.AI
Аннотация
Систематическая оценка моделей разделения и улучшения речи в условиях движущегося источника звука обычно требует обширных данных, включающих разнообразные сценарии. Однако реальные наборы данных часто содержат недостаточное количество данных для удовлетворения требований к обучению и оценке моделей. Хотя синтетические наборы данных предлагают больший объем данных, их акустические симуляции лишены реализма. Следовательно, ни реальные, ни синтетические наборы данных неэффективно удовлетворяют практическим потребностям. Для решения этих проблем мы представляем SonicSim, синтетический инструментарий, разработанный для генерации высококастомизируемых данных для движущихся источников звука. SonicSim разработан на основе платформы симуляции воплощенного искусственного интеллекта Habitat-sim, поддерживающей многоуровневые настройки, включая уровень сцены, уровень микрофона и уровень источника, что позволяет генерировать более разнообразные синтетические данные. Используя SonicSim, мы создали набор данных-бенчмарк движущегося источника звука, SonicSet, используя Librispeech, Freesound Dataset 50k (FSD50K) и Free Music Archive (FMA), а также 90 сцен из Matterport3D для оценки моделей разделения и улучшения речи. Кроме того, чтобы подтвердить различия между синтетическими данными и реальными данными, мы случайным образом выбрали 5 часов необработанных данных без реверберации из валидационного набора SonicSet для записи набора данных реальной разделения речи, который затем был сравнен с соответствующими синтетическими наборами данных. Аналогично мы использовали набор данных реального улучшения речи RealMAN для проверки акустического разрыва между другими синтетическими наборами данных и набором данных SonicSet для улучшения речи. Результаты показывают, что синтетические данные, сгенерированные SonicSim, эффективно обобщаются на реальные сценарии. Демонстрация и код доступны по адресу https://cslikai.cn/SonicSim/.
English
The systematic evaluation of speech separation and enhancement models under
moving sound source conditions typically requires extensive data comprising
diverse scenarios. However, real-world datasets often contain insufficient data
to meet the training and evaluation requirements of models. Although synthetic
datasets offer a larger volume of data, their acoustic simulations lack
realism. Consequently, neither real-world nor synthetic datasets effectively
fulfill practical needs. To address these issues, we introduce SonicSim, a
synthetic toolkit de-designed to generate highly customizable data for moving
sound sources. SonicSim is developed based on the embodied AI simulation
platform, Habitat-sim, supporting multi-level adjustments, including
scene-level, microphone-level, and source-level, thereby generating more
diverse synthetic data. Leveraging SonicSim, we constructed a moving sound
source benchmark dataset, SonicSet, using the Librispeech, the Freesound
Dataset 50k (FSD50K) and Free Music Archive (FMA), and 90 scenes from the
Matterport3D to evaluate speech separation and enhancement models.
Additionally, to validate the differences between synthetic data and real-world
data, we randomly selected 5 hours of raw data without reverberation from the
SonicSet validation set to record a real-world speech separation dataset, which
was then compared with the corresponding synthetic datasets. Similarly, we
utilized the real-world speech enhancement dataset RealMAN to validate the
acoustic gap between other synthetic datasets and the SonicSet dataset for
speech enhancement. The results indicate that the synthetic data generated by
SonicSim can effectively generalize to real-world scenarios. Demo and code are
publicly available at https://cslikai.cn/SonicSim/.Summary
AI-Generated Summary