Mega-ASR : Vers une reconnaissance vocale en conditions réelles au carré via le passage à l'échelle de la simulation acoustique réaliste.
Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation
May 19, 2026
Auteurs: Zhifei Xie, Kaiyu Pang, Haobin Zhang, Deheng Ye, Xiaobin Hu, Shuicheng Yan, Chunyan Miao
cs.AI
Résumé
Malgré les progrès rapides de la reconnaissance automatique de la parole (RAP) et des grands modèles audio-langage, la reconnaissance robuste en environnements réels reste limitée par un « goulot d'étranglement de robustesse acoustique » : les modèles perdent souvent leur ancrage acoustique et produisent des omissions ou des hallucinations sous des distorsions sévères et compositionnelles. Nous proposons Mega-ASR, un cadre unifié de RAP en conditions réelles combinant une construction de données composées scalable avec une optimisation progressive acoustique-sémantique. Nous introduisons Voices-in-the-Wild-2M, couvrant 7 phénomènes acoustiques classiques et 54 scénarios composés physiquement plausibles, et entraînons Mega-ASR grâce à une optimisation supervisée fine progressive acoustique-sémantique et une optimisation de politique par seuil WER à double granularité. Des expériences approfondies démontrent que Mega-ASR atteint des avantages significatifs par rapport aux systèmes de pointe antérieurs sur des benchmarks de RAP en conditions défavorables (45,69 % contre 54,01 % sur VOiCES R4-B-F, et 21,49 % contre 29,34 % sur NOIZEUS Sta-0). Sur des scénarios acoustiques compositionnels complexes, Mega-ASR offre en outre une réduction relative du WER de plus de 30 % par rapport à des références open-source et propriétaires solides, établissant un paradigme scalable pour une RAP robuste en conditions réelles.
English
Despite rapid advances in automatic speech recognition (ASR) and large audio-language models, robust recognition in real-world environments remains limited by an "acoustic robustness bottleneck": models often lose acoustic grounding and produce omissions or hallucinations under severe, compositional distortions. We propose Mega-ASR, a unified ASR-in-the-wild framework that combines scalable compound-data construction with progressive acoustic-to-semantic optimization. We introduce Voices-in-the-Wild-2M, covering 7 classic acoustic phenomena and 54 physically plausible compound scenarios, and train Mega-ASR with Acoustic-to-Semantic Progressive Supervised Fine-Tuning and Dual-Granularity WER-Gated Policy Optimization. Extensive experiments demonstrate that Mega-ASR achieves significant advantages over prior state-of-the-art systems on adverse-condition ASR benchmarks (45.69% vs. 54.01% on VOiCES R4-B-F, and 21.49% vs. 29.34% on NOIZEUS Sta-0). On complex compositional acoustic scenarios, Mega-ASR further delivers over 30% relative WER reduction against strong open- and closed-source baselines, establishing a scalable paradigm for robust ASR in-the-wild.