Mega-ASR : Vers une reconnaissance vocale en conditions réelles au carré via le passage à l'échelle de la simulation acoustique réaliste.

Résumé

Malgré les progrès rapides de la reconnaissance automatique de la parole (RAP) et des grands modèles audio-langage, la reconnaissance robuste en environnements réels reste limitée par un « goulot d'étranglement de robustesse acoustique » : les modèles perdent souvent leur ancrage acoustique et produisent des omissions ou des hallucinations sous des distorsions sévères et compositionnelles. Nous proposons Mega-ASR, un cadre unifié de RAP en conditions réelles combinant une construction de données composées scalable avec une optimisation progressive acoustique-sémantique. Nous introduisons Voices-in-the-Wild-2M, couvrant 7 phénomènes acoustiques classiques et 54 scénarios composés physiquement plausibles, et entraînons Mega-ASR grâce à une optimisation supervisée fine progressive acoustique-sémantique et une optimisation de politique par seuil WER à double granularité. Des expériences approfondies démontrent que Mega-ASR atteint des avantages significatifs par rapport aux systèmes de pointe antérieurs sur des benchmarks de RAP en conditions défavorables (45,69 % contre 54,01 % sur VOiCES R4-B-F, et 21,49 % contre 29,34 % sur NOIZEUS Sta-0). Sur des scénarios acoustiques compositionnels complexes, Mega-ASR offre en outre une réduction relative du WER de plus de 30 % par rapport à des références open-source et propriétaires solides, établissant un paradigme scalable pour une RAP robuste en conditions réelles.

English

Despite rapid advances in automatic speech recognition (ASR) and large audio-language models, robust recognition in real-world environments remains limited by an "acoustic robustness bottleneck": models often lose acoustic grounding and produce omissions or hallucinations under severe, compositional distortions. We propose Mega-ASR, a unified ASR-in-the-wild framework that combines scalable compound-data construction with progressive acoustic-to-semantic optimization. We introduce Voices-in-the-Wild-2M, covering 7 classic acoustic phenomena and 54 physically plausible compound scenarios, and train Mega-ASR with Acoustic-to-Semantic Progressive Supervised Fine-Tuning and Dual-Granularity WER-Gated Policy Optimization. Extensive experiments demonstrate that Mega-ASR achieves significant advantages over prior state-of-the-art systems on adverse-condition ASR benchmarks (45.69% vs. 54.01% on VOiCES R4-B-F, and 21.49% vs. 29.34% on NOIZEUS Sta-0). On complex compositional acoustic scenarios, Mega-ASR further delivers over 30% relative WER reduction against strong open- and closed-source baselines, establishing a scalable paradigm for robust ASR in-the-wild.