Mega-ASR: Op Weg naar In-the-wild^2 Spraakherkenning door Opschaling van Realistische Akoestische Simulatie
Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation
May 19, 2026
Auteurs: Zhifei Xie, Kaiyu Pang, Haobin Zhang, Deheng Ye, Xiaobin Hu, Shuicheng Yan, Chunyan Miao
cs.AI
Samenvatting
Ondanks de snelle vooruitgang in automatische spraakherkenning (ASR) en grote audio-taalmodelen blijft robuuste herkenning in realistische omgevingen beperkt door een ‘akoestische robuustheidsknelpunt’: modellen verliezen vaak hun akoestische fundering en produceren weglatingen of hallucinaties onder ernstige, compositorische vervormingen. Wij stellen Mega-ASR voor, een uniform ASR-in-the-wild raamwerk dat schaalbare samengestelde-dataconstructie combineert met progressieve akoestische-naar-semantische optimalisatie. We introduceren Voices-in-the-Wild-2M, dat 7 klassieke akoestische verschijnselen en 54 fysiek plausibele samengestelde scenario’s bestrijkt, en trainen Mega-ASR met Akoestische-naar-Semantische Progressieve Supervised Fine-Tuning en Dual-Granulariteit WER-Gated Beleidsoptimalisatie. Uitgebreide experimenten tonen aan dat Mega-ASR aanzienlijke voordelen behaalt ten opzichte van eerdere state-of-the-art systemen op ASR-benchmarks met ongunstige omstandigheden (45,69% vs. 54,01% op VOiCES R4-B-F, en 21,49% vs. 29,34% op NOIZEUS Sta-0). In complexe compositorische akoestische scenario’s levert Mega-ASR verder meer dan 30% relatieve WER-reductie ten opzichte van sterke open- en closed-source baselines, waarmee het een schaalbaar paradigma vestigt voor robuuste ASR in-the-wild.
English
Despite rapid advances in automatic speech recognition (ASR) and large audio-language models, robust recognition in real-world environments remains limited by an "acoustic robustness bottleneck": models often lose acoustic grounding and produce omissions or hallucinations under severe, compositional distortions. We propose Mega-ASR, a unified ASR-in-the-wild framework that combines scalable compound-data construction with progressive acoustic-to-semantic optimization. We introduce Voices-in-the-Wild-2M, covering 7 classic acoustic phenomena and 54 physically plausible compound scenarios, and train Mega-ASR with Acoustic-to-Semantic Progressive Supervised Fine-Tuning and Dual-Granularity WER-Gated Policy Optimization. Extensive experiments demonstrate that Mega-ASR achieves significant advantages over prior state-of-the-art systems on adverse-condition ASR benchmarks (45.69% vs. 54.01% on VOiCES R4-B-F, and 21.49% vs. 29.34% on NOIZEUS Sta-0). On complex compositional acoustic scenarios, Mega-ASR further delivers over 30% relative WER reduction against strong open- and closed-source baselines, establishing a scalable paradigm for robust ASR in-the-wild.