RIR-Mega-Speech: Un Corpus di Voce Riverberata con Metadati Acustici Completi e Valutazione Riproducibile

Abstract

Nonostante decenni di ricerca sul parlato riverberante, il confronto tra i metodi rimane difficile poiché la maggior parte dei corpora manca di annotazioni acustiche per singolo file o fornisce documentazione limitata per la riproduzione. Presentiamo RIR-Mega-Speech, un corpus di circa 117,5 ore creato convolvendo gli enunciati di LibriSpeech con circa 5.000 risposte impulsive ambientali simulate dalla collezione RIR-Mega. Ogni file include il tempo di riverberazione (RT60), il rapporto diretto-riverberato (DRR) e l'indice di chiarezza (C₅₀) calcolati dalla RIR sorgente mediante procedure chiaramente definite e riproducibili. Forniamo inoltre script per ricostruire il dataset e riprodurre tutti i risultati di valutazione. Utilizzando il modello Whisper small su 1.500 enunciati accoppiati, abbiamo misurato un tasso di errore sul parlato (WER) del 5,20% (IC 95%: 4,69-5,78) sul parlato pulito e del 7,70% (7,04-8,35) sulle versioni riverberate, corrispondente a un aumento accoppiato di 2,50 punti percentuali (2,06-2,98). Ciò rappresenta un degrado relativo del 48%. Il WER aumenta monotonicamente con l'RT60 e diminuisce con il DRR, in linea con precedenti studi percettivi. Sebbene il risultato fondamentale che la riverberazione danneggia il riconoscimento sia ben consolidato, il nostro obiettivo è fornire alla comunità una risorsa standardizzata in cui le condizioni acustiche siano trasparenti e i risultati possano essere verificati indipendentemente. Il repository include istruzioni di ricostruzione con un singolo comando per ambienti Windows e Linux.

English

Despite decades of research on reverberant speech, comparing methods remains difficult because most corpora lack per-file acoustic annotations or provide limited documentation for reproduction. We present RIR-Mega-Speech, a corpus of approximately 117.5 hours created by convolving LibriSpeech utterances with roughly 5,000 simulated room impulse responses from the RIR-Mega collection. Every file includes RT60, direct-to-reverberant ratio (DRR), and clarity index (C_{50}) computed from the source RIR using clearly defined, reproducible procedures. We also provide scripts to rebuild the dataset and reproduce all evaluation results. Using Whisper small on 1,500 paired utterances, we measure 5.20% WER (95% CI: 4.69--5.78) on clean speech and 7.70% (7.04--8.35) on reverberant versions, corresponding to a paired increase of 2.50 percentage points (2.06--2.98). This represents a 48% relative degradation. WER increases monotonically with RT60 and decreases with DRR, consistent with prior perceptual studies. While the core finding that reverberation harms recognition is well established, we aim to provide the community with a standardized resource where acoustic conditions are transparent and results can be verified independently. The repository includes one-command rebuild instructions for both Windows and Linux environments.

RIR-Mega-Speech: Un Corpus di Voce Riverberata con Metadati Acustici Completi e Valutazione Riproducibile

RIR-Mega-Speech: A Reverberant Speech Corpus with Comprehensive Acoustic Metadata and Reproducible Evaluation

Abstract

Support