Mega-ASR: Hacia el Reconocimiento de Voz in-the-wild² mediante el Escalado de la Simulación Acústica del Mundo Real

Resumen

A pesar de los rápidos avances en el reconocimiento automático del habla (ASR) y los grandes modelos audiomentales, el reconocimiento robusto en entornos reales sigue estando limitado por un "cuello de botella de robustez acústica": los modelos a menudo pierden la fundamentación acústica y producen omisiones o alucinaciones bajo distorsiones graves y compuestas. Proponemos Mega-ASR, un marco unificado de ASR en entornos reales que combina la construcción escalable de datos compuestos con una optimización progresiva acústico-semántica. Introducimos Voices-in-the-Wild-2M, que abarca 7 fenómenos acústicos clásicos y 54 escenarios compuestos físicamente plausibles, y entrenamos Mega-ASR con Ajuste Fino Supervisado Progresivo Acústico-Semántico y Optimización de Política de Doble Granularidad con Puerta de WER. Experimentos exhaustivos demuestran que Mega-ASR logra ventajas significativas frente a los sistemas de última generación previos en puntos de referencia de ASR en condiciones adversas (45.69% frente a 54.01% en VOiCES R4-B-F, y 21.49% frente a 29.34% en NOIZEUS Sta-0). En escenarios acústicos compuestos complejos, Mega-ASR ofrece además una reducción relativa de WER superior al 30% frente a sólidas líneas base de código abierto y cerrado, estableciendo un paradigma escalable para ASR robusto en entornos reales.

English

Despite rapid advances in automatic speech recognition (ASR) and large audio-language models, robust recognition in real-world environments remains limited by an "acoustic robustness bottleneck": models often lose acoustic grounding and produce omissions or hallucinations under severe, compositional distortions. We propose Mega-ASR, a unified ASR-in-the-wild framework that combines scalable compound-data construction with progressive acoustic-to-semantic optimization. We introduce Voices-in-the-Wild-2M, covering 7 classic acoustic phenomena and 54 physically plausible compound scenarios, and train Mega-ASR with Acoustic-to-Semantic Progressive Supervised Fine-Tuning and Dual-Granularity WER-Gated Policy Optimization. Extensive experiments demonstrate that Mega-ASR achieves significant advantages over prior state-of-the-art systems on adverse-condition ASR benchmarks (45.69% vs. 54.01% on VOiCES R4-B-F, and 21.49% vs. 29.34% on NOIZEUS Sta-0). On complex compositional acoustic scenarios, Mega-ASR further delivers over 30% relative WER reduction against strong open- and closed-source baselines, establishing a scalable paradigm for robust ASR in-the-wild.