RIR-Mega: Ein umfangreicher Datensatz simulierter Raumimpulsantworten für maschinelles Lernen und die Modellierung von Raumakustik
RIR-Mega: a large-scale simulated room impulse response dataset for machine learning and room acoustics modeling
October 21, 2025
papers.authors: Mandip Goswami
cs.AI
papers.abstract
Raumimpulsantworten sind eine zentrale Ressource für Dereverberation, robuste Spracherkennung, Quellenlokalisierung und die Schätzung von Raumakustikeigenschaften. Wir stellen RIR-Mega vor, eine umfangreiche Sammlung simulierte Raumimpulsantworten, die durch ein kompaktes, maschinenfreundliches Metadatenschema beschrieben und mit einfachen Werkzeugen zur Validierung und Wiederverwendung bereitgestellt werden. Der Datensatz wird mit einem Hugging Face Datasets-Loader, Skripten zur Überprüfung von Metadaten und Prüfsummen sowie einer Referenz-Regressionsbasislinie ausgeliefert, die RT60-ähnliche Ziele aus Wellenformen vorhersagt. Auf einer Trainings- und Validierungsaufteilung von 36.000 bzw. 4.000 Beispielen erreicht ein kleiner Random Forest auf leichtgewichtigen Zeit- und Spektralmerkmalen einen mittleren absoluten Fehler von etwa 0,013 s und einen mittleren quadratischen Fehler von etwa 0,022 s. Wir hosten eine Teilmenge mit 1.000 Raumimpulsantworten für lineare Arrays und 3.000 Raumimpulsantworten für kreisförmige Arrays auf Hugging Face für Streaming und schnelle Tests und bewahren das vollständige Archiv mit 50.000 Raumimpulsantworten auf Zenodo auf. Der Datensatz und der Code sind öffentlich zugänglich, um reproduzierbare Studien zu unterstützen.
English
Room impulse responses are a core resource for dereverberation, robust speech
recognition, source localization, and room acoustics estimation. We present
RIR-Mega, a large collection of simulated RIRs described by a compact, machine
friendly metadata schema and distributed with simple tools for validation and
reuse. The dataset ships with a Hugging Face Datasets loader, scripts for
metadata checks and checksums, and a reference regression baseline that
predicts RT60 like targets from waveforms. On a train and validation split of
36,000 and 4,000 examples, a small Random Forest on lightweight time and
spectral features reaches a mean absolute error near 0.013 s and a root mean
square error near 0.022 s. We host a subset with 1,000 linear array RIRs and
3,000 circular array RIRs on Hugging Face for streaming and quick tests, and
preserve the complete 50,000 RIR archive on Zenodo. The dataset and code are
public to support reproducible studies.