RIR-Mega:機械学習と室内音響モデリングのための大規模シミュレーション室内インパルス応答データセット
RIR-Mega: a large-scale simulated room impulse response dataset for machine learning and room acoustics modeling
October 21, 2025
著者: Mandip Goswami
cs.AI
要旨
室内インパルス応答(RIR)は、残響除去、ロバスト音声認識、音源位置推定、室内音響推定の中核となるリソースです。本論文では、RIR-Megaを紹介します。これは、コンパクトで機械に優しいメタデータスキーマで記述され、検証と再利用のためのシンプルなツールと共に配布される、大規模なシミュレーションRIRコレクションです。このデータセットには、Hugging Face Datasetsローダー、メタデータチェックとチェックサムのスクリプト、波形からRT60のようなターゲットを予測するリファレンス回帰ベースラインが同梱されています。36,000例のトレーニングセットと4,000例の検証セットにおいて、軽量な時間およびスペクトル特徴量を用いた小さなランダムフォレストは、平均絶対誤差が約0.013秒、二乗平均平方根誤差が約0.022秒に達しました。ストリーミングとクイックテストのため、1,000の線形アレイRIRと3,000の円形アレイRIRのサブセットをHugging Faceでホストし、完全な50,000のRIRアーカイブはZenodoに保存しています。データセットとコードは公開されており、再現可能な研究を支援します。
English
Room impulse responses are a core resource for dereverberation, robust speech
recognition, source localization, and room acoustics estimation. We present
RIR-Mega, a large collection of simulated RIRs described by a compact, machine
friendly metadata schema and distributed with simple tools for validation and
reuse. The dataset ships with a Hugging Face Datasets loader, scripts for
metadata checks and checksums, and a reference regression baseline that
predicts RT60 like targets from waveforms. On a train and validation split of
36,000 and 4,000 examples, a small Random Forest on lightweight time and
spectral features reaches a mean absolute error near 0.013 s and a root mean
square error near 0.022 s. We host a subset with 1,000 linear array RIRs and
3,000 circular array RIRs on Hugging Face for streaming and quick tests, and
preserve the complete 50,000 RIR archive on Zenodo. The dataset and code are
public to support reproducible studies.