Mega-ASR: Rumo ao Reconhecimento de Fala In-the-wild² via Ampliação da Simulação Acústica do Mundo Real

Resumo

Apesar dos rápidos avanços no reconhecimento automático de fala (ASR) e nos grandes modelos de áudio-linguagem, o reconhecimento robusto em ambientes do mundo real ainda é limitado por um "gargalo de robustez acústica": os modelos frequentemente perdem a ancoragem acústica e produzem omissões ou alucinações sob distorções severas e composicionais. Propomos o Mega-ASR, uma estrutura unificada de ASR em cenários reais que combina construção escalável de dados compostos com otimização progressiva acústico-semântica. Apresentamos o Voices-in-the-Wild-2M, cobrindo 7 fenômenos acústicos clássicos e 54 cenários compostos fisicamente plausíveis, e treinamos o Mega-ASR com Ajuste Fino Supervisionado Progressivo Acústico-Semântico e Otimização de Política com Gate de WER de Dupla Granularidade. Extensos experimentos demonstram que o Mega-ASR alcança vantagens significativas sobre sistemas anteriores de última geração em benchmarks de ASR em condições adversas (45,69% vs. 54,01% no VOiCES R4-B-F, e 21,49% vs. 29,34% no NOIZEUS Sta-0). Em cenários acústicos composicionais complexos, o Mega-ASR proporciona ainda uma redução relativa de WER de mais de 30% em relação a fortes baselines de código aberto e fechado, estabelecendo um paradigma escalável para ASR robusto em cenários reais.

English

Despite rapid advances in automatic speech recognition (ASR) and large audio-language models, robust recognition in real-world environments remains limited by an "acoustic robustness bottleneck": models often lose acoustic grounding and produce omissions or hallucinations under severe, compositional distortions. We propose Mega-ASR, a unified ASR-in-the-wild framework that combines scalable compound-data construction with progressive acoustic-to-semantic optimization. We introduce Voices-in-the-Wild-2M, covering 7 classic acoustic phenomena and 54 physically plausible compound scenarios, and train Mega-ASR with Acoustic-to-Semantic Progressive Supervised Fine-Tuning and Dual-Granularity WER-Gated Policy Optimization. Extensive experiments demonstrate that Mega-ASR achieves significant advantages over prior state-of-the-art systems on adverse-condition ASR benchmarks (45.69% vs. 54.01% on VOiCES R4-B-F, and 21.49% vs. 29.34% on NOIZEUS Sta-0). On complex compositional acoustic scenarios, Mega-ASR further delivers over 30% relative WER reduction against strong open- and closed-source baselines, establishing a scalable paradigm for robust ASR in-the-wild.