Whisper-RIR-Mega : Un benchmark de parole couplée propre-réverbérante pour la robustesse de la RAO face à l'acoustique des salles

Résumé

Nous présentons Whisper-RIR-Mega, un jeu de données de référence regroupant des échantillons de parole associés, nets et réverbérants, pour évaluer la robustesse de la reconnaissance automatique de la parole (ASR) face à l'acoustique des salles. Chaque échantillon associe un énoncé net de LibriSpeech au même énoncé convolué avec une réponse impulsionnelle de salle réelle issue du corpus RIR-Mega, avec des sous-ensembles stratifiés selon le temps de réverbération (TR60) et le rapport direct/réverbéré (DRR). Nous évaluons cinq modèles Whisper (de tiny à large-v3) sur 1600 échantillons de test et rapportons le taux d'erreur sur les mots (WER) et le taux d'erreur sur les caractères (CER) dans des conditions nettes et réverbérantes. La réverbération dégrade systématiquement les performances pour toutes les tailles de modèles ; la pénalité due à la réverbération en termes de WER varie de 0,12 à 1,07 point de pourcentage selon le modèle. Nous publions le jeu de données, le code d'évaluation et les résultats de référence pour favoriser la recherche reproductible sur l'ASR robuste.

English

We introduce Whisper-RIR-Mega, a benchmark dataset of paired clean and reverberant speech for evaluating automatic speech recognition (ASR) robustness to room acoustics. Each sample pairs a clean LibriSpeech utterance with the same utterance convolved with a real room impulse response from the RIR-Mega corpus, with stratified splits by reverberation time (RT60) and direct-to-reverberant ratio (DRR). We evaluate five Whisper models (tiny through large-v3) on 1600 test samples and report word error rate (WER) and character error rate (CER) under clean and reverberant conditions. Reverberation consistently degrades performance across all model sizes; the reverb penalty in WER ranges from 0.12 to 1.07 percentage points depending on the model. We release the dataset, evaluation code, and baseline results to support reproducible research on robust ASR.

Whisper-RIR-Mega : Un benchmark de parole couplée propre-réverbérante pour la robustesse de la RAO face à l'acoustique des salles

Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

Résumé

Support