RIR-Mega: 기계 학습 및 실내 음향 모델링을 위한 대규모 시뮬레이션 실내 임펄스 응답 데이터셋
RIR-Mega: a large-scale simulated room impulse response dataset for machine learning and room acoustics modeling
October 21, 2025
저자: Mandip Goswami
cs.AI
초록
룸 임펄스 응답(Room Impulse Response, RIR)은 디리버베레이션(dereverberation), 강건한 음성 인식, 소스 위치 추정, 그리고 실내 음향 추정을 위한 핵심 자원입니다. 우리는 RIR-Mega를 소개합니다. 이는 시뮬레이션된 RIR의 대규모 컬렉션으로, 간결하고 기계 친화적인 메타데이터 스키마로 설명되며, 검증과 재사용을 위한 간단한 도구와 함께 배포됩니다. 이 데이터셋은 Hugging Face Datasets 로더, 메타데이터 검사 및 체크섬을 위한 스크립트, 그리고 파형에서 RT60과 같은 타겟을 예측하는 참조 회귀 베이스라인과 함께 제공됩니다. 36,000개의 훈련 데이터와 4,000개의 검증 데이터로 나뉜 데이터셋에서, 경량의 시간 및 스펙트럼 특징을 사용한 작은 랜덤 포레스트는 평균 절대 오차가 약 0.013초, 평균 제곱근 오차가 약 0.022초에 도달합니다. 우리는 스트리밍과 빠른 테스트를 위해 Hugging Face에 1,000개의 선형 배열 RIR과 3,000개의 원형 배열 RIR로 구성된 부분집합을 호스팅하며, 전체 50,000개의 RIR 아카이브는 Zenodo에 보관합니다. 데이터셋과 코드는 재현 가능한 연구를 지원하기 위해 공개되어 있습니다.
English
Room impulse responses are a core resource for dereverberation, robust speech
recognition, source localization, and room acoustics estimation. We present
RIR-Mega, a large collection of simulated RIRs described by a compact, machine
friendly metadata schema and distributed with simple tools for validation and
reuse. The dataset ships with a Hugging Face Datasets loader, scripts for
metadata checks and checksums, and a reference regression baseline that
predicts RT60 like targets from waveforms. On a train and validation split of
36,000 and 4,000 examples, a small Random Forest on lightweight time and
spectral features reaches a mean absolute error near 0.013 s and a root mean
square error near 0.022 s. We host a subset with 1,000 linear array RIRs and
3,000 circular array RIRs on Hugging Face for streaming and quick tests, and
preserve the complete 50,000 RIR archive on Zenodo. The dataset and code are
public to support reproducible studies.