SonicSim: Eine anpassbare Simulationsplattform für die Sprachverarbeitung in Szenarien mit sich bewegenden Schallquellen
SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios
October 2, 2024
Autoren: Kai Li, Wendi Sang, Chang Zeng, Runxuan Yang, Guo Chen, Xiaolin Hu
cs.AI
Zusammenfassung
Die systematische Bewertung von Sprachtrennungs- und -verbesserungsmodellen unter Bedingungen mit sich bewegenden Schallquellen erfordert in der Regel umfangreiche Daten, die verschiedene Szenarien umfassen. Allerdings enthalten realitätsnahe Datensätze oft nicht genügend Daten, um die Schulungs- und Bewertungsanforderungen der Modelle zu erfüllen. Obwohl synthetische Datensätze eine größere Datenmenge bieten, fehlt es ihren akustischen Simulationen an Realismus. Folglich erfüllen weder realitätsnahe noch synthetische Datensätze effektiv praktische Anforderungen. Um diese Probleme zu lösen, stellen wir SonicSim vor, ein synthetisches Toolkit, das entwickelt wurde, um hochgradig anpassbare Daten für sich bewegende Schallquellen zu generieren. SonicSim basiert auf der verkörperten KI-Simulationsplattform Habitat-sim und unterstützt mehrstufige Anpassungen, einschließlich Szenenebene, Mikrofonebene und Quellenebene, um so vielfältigere synthetische Daten zu generieren. Unter Verwendung von SonicSim haben wir einen Benchmark-Datensatz für sich bewegende Schallquellen, SonicSet genannt, erstellt, indem wir Librispeech, den Freesound-Datensatz 50k (FSD50K) und das Free Music Archive (FMA) sowie 90 Szenen aus dem Matterport3D verwendet haben, um Sprachtrennungs- und -verbesserungsmodelle zu bewerten. Zusätzlich haben wir zur Validierung der Unterschiede zwischen synthetischen Daten und realitätsnahen Daten 5 Stunden Rohdaten ohne Hall aus dem Validierungsdatensatz von SonicSet zufällig ausgewählt, um einen realitätsnahen Datensatz für die Sprachtrennung aufzuzeichnen, der dann mit den entsprechenden synthetischen Datensätzen verglichen wurde. Ebenso haben wir den realitätsnahen Datensatz für die Sprachverbesserung RealMAN genutzt, um die akustische Kluft zwischen anderen synthetischen Datensätzen und dem SonicSet-Datensatz für die Sprachverbesserung zu validieren. Die Ergebnisse zeigen, dass die von SonicSim generierten synthetischen Daten effektiv auf realitätsnahe Szenarien verallgemeinert werden können. Eine Demo und der Code sind öffentlich unter https://cslikai.cn/SonicSim/ verfügbar.
English
The systematic evaluation of speech separation and enhancement models under
moving sound source conditions typically requires extensive data comprising
diverse scenarios. However, real-world datasets often contain insufficient data
to meet the training and evaluation requirements of models. Although synthetic
datasets offer a larger volume of data, their acoustic simulations lack
realism. Consequently, neither real-world nor synthetic datasets effectively
fulfill practical needs. To address these issues, we introduce SonicSim, a
synthetic toolkit de-designed to generate highly customizable data for moving
sound sources. SonicSim is developed based on the embodied AI simulation
platform, Habitat-sim, supporting multi-level adjustments, including
scene-level, microphone-level, and source-level, thereby generating more
diverse synthetic data. Leveraging SonicSim, we constructed a moving sound
source benchmark dataset, SonicSet, using the Librispeech, the Freesound
Dataset 50k (FSD50K) and Free Music Archive (FMA), and 90 scenes from the
Matterport3D to evaluate speech separation and enhancement models.
Additionally, to validate the differences between synthetic data and real-world
data, we randomly selected 5 hours of raw data without reverberation from the
SonicSet validation set to record a real-world speech separation dataset, which
was then compared with the corresponding synthetic datasets. Similarly, we
utilized the real-world speech enhancement dataset RealMAN to validate the
acoustic gap between other synthetic datasets and the SonicSet dataset for
speech enhancement. The results indicate that the synthetic data generated by
SonicSim can effectively generalize to real-world scenarios. Demo and code are
publicly available at https://cslikai.cn/SonicSim/.