RIR-Mega: een grootschalige gesimuleerde dataset van ruimtelijke impulsresponsen voor machine learning en modellering van ruimteakoestiek
RIR-Mega: a large-scale simulated room impulse response dataset for machine learning and room acoustics modeling
October 21, 2025
Auteurs: Mandip Goswami
cs.AI
Samenvatting
Kamerimpulsresponsen vormen een essentiële bron voor dereverberatie, robuuste spraakherkenning, bronlokalisatie en schatting van ruimteakoestiek. Wij presenteren RIR-Mega, een grote verzameling gesimuleerde RIR's die worden beschreven door een compact, machinevriendelijk metadatenschema en worden gedistribueerd met eenvoudige tools voor validatie en hergebruik. De dataset wordt geleverd met een Hugging Face Datasets-loader, scripts voor metadata-controles en checksums, en een referentie-regressiebaseline die RT60-doelwaarden voorspelt uit golfvormen. Op een trainings- en validatieset van respectievelijk 36.000 en 4.000 voorbeelden bereikt een kleine Random Forest op lichtgewicht tijds- en spectrale kenmerken een gemiddelde absolute fout van ongeveer 0,013 s en een wortelgemiddelde kwadratische fout van ongeveer 0,022 s. We hosten een subset met 1.000 RIR's voor lineaire arrays en 3.000 RIR's voor circulaire arrays op Hugging Face voor streaming en snelle tests, en bewaren het complete archief van 50.000 RIR's op Zenodo. De dataset en code zijn openbaar om reproduceerbare studies te ondersteunen.
English
Room impulse responses are a core resource for dereverberation, robust speech
recognition, source localization, and room acoustics estimation. We present
RIR-Mega, a large collection of simulated RIRs described by a compact, machine
friendly metadata schema and distributed with simple tools for validation and
reuse. The dataset ships with a Hugging Face Datasets loader, scripts for
metadata checks and checksums, and a reference regression baseline that
predicts RT60 like targets from waveforms. On a train and validation split of
36,000 and 4,000 examples, a small Random Forest on lightweight time and
spectral features reaches a mean absolute error near 0.013 s and a root mean
square error near 0.022 s. We host a subset with 1,000 linear array RIRs and
3,000 circular array RIRs on Hugging Face for streaming and quick tests, and
preserve the complete 50,000 RIR archive on Zenodo. The dataset and code are
public to support reproducible studies.