Mega-ASR: Auf dem Weg zur In-the-wild^2-Spracherkennung durch Hochskalieren realistischer akustischer Simulation

Zusammenfassung

Trotz rasanter Fortschritte bei der automatischen Spracherkennung (ASR) und großen Audio-Sprachmodellen bleibt die robuste Erkennung in realen Umgebungen durch einen „akustischen Robustheitsengpass" eingeschränkt: Modelle verlieren häufig die akustische Verankerung und produzieren Auslassungen oder Halluzinationen unter schwerwiegenden, zusammengesetzten Störungen. Wir schlagen Mega-ASR vor, ein einheitliches Framework für ASR im Feldeinsatz, das skalierbare Konstruktion zusammengesetzter Daten mit progressiver akustisch-semantischer Optimierung kombiniert. Wir führen Voices-in-the-Wild-2M ein, das 7 klassische akustische Phänomene und 54 physikalisch plausible zusammengesetzte Szenarien abdeckt, und trainieren Mega-ASR mittels Akustisch-Semantischem Progressivem Supervised Fine-Tuning sowie Dual-Granularitäts-WER-gesteuerter Policy-Optimierung. Umfangreiche Experimente belegen, dass Mega-ASR auf adversen ASR-Benchmarks signifikante Vorteile gegenüber früheren State-of-the-Art-Systemen erzielt (45,69 % vs. 54,01 % auf VOiCES R4-B-F und 21,49 % vs. 29,34 % auf NOIZEUS Sta-0). Bei komplexen zusammengesetzten akustischen Szenarien liefert Mega-ASR zudem eine relative WER-Reduktion von über 30 % gegenüber starken Open- und Closed-Source-Baselines und etabliert damit ein skalierbares Paradigma für robuste ASR im Feldeinsatz.

English

Despite rapid advances in automatic speech recognition (ASR) and large audio-language models, robust recognition in real-world environments remains limited by an "acoustic robustness bottleneck": models often lose acoustic grounding and produce omissions or hallucinations under severe, compositional distortions. We propose Mega-ASR, a unified ASR-in-the-wild framework that combines scalable compound-data construction with progressive acoustic-to-semantic optimization. We introduce Voices-in-the-Wild-2M, covering 7 classic acoustic phenomena and 54 physically plausible compound scenarios, and train Mega-ASR with Acoustic-to-Semantic Progressive Supervised Fine-Tuning and Dual-Granularity WER-Gated Policy Optimization. Extensive experiments demonstrate that Mega-ASR achieves significant advantages over prior state-of-the-art systems on adverse-condition ASR benchmarks (45.69% vs. 54.01% on VOiCES R4-B-F, and 21.49% vs. 29.34% on NOIZEUS Sta-0). On complex compositional acoustic scenarios, Mega-ASR further delivers over 30% relative WER reduction against strong open- and closed-source baselines, establishing a scalable paradigm for robust ASR in-the-wild.