Mega-ASR: К распознаванию речи в дикой природе² через масштабирование симуляции акустики реального мира

Аннотация

Несмотря на стремительный прогресс в области автоматического распознавания речи (ASR) и больших аудио-языковых моделей, надёжное распознавание в реальных условиях остаётся ограниченным из-за «акустического узкого места устойчивости»: модели зачастую теряют акустическую основу и порождают пропуски или галлюцинации при сильных композиционных искажениях. Мы предлагаем Mega-ASR — унифицированную среду для ASR в естественных условиях, объединяющую масштабируемое построение составных данных с прогрессивной оптимизацией от акустики к семантике. Представляем Voices-in-the-Wild-2M, охватывающий 7 классических акустических явлений и 54 физически правдоподобных композиционных сценария, и обучаем Mega-ASR с помощью прогрессивной контролируемой точной настройки от акустики к семантике и оптимизации политики с двойной детализацией, управляемой WER. Обширные эксперименты показывают, что Mega-ASR достигает значительных преимуществ перед предыдущими передовыми системами на эталонных тестах ASR в неблагоприятных условиях (45,69% против 54,01% на VOiCES R4-B-F и 21,49% против 29,34% на NOIZEUS Sta-0). В сложных композиционных акустических сценариях Mega-ASR дополнительно обеспечивает относительное снижение WER более чем на 30% по сравнению с сильными базовыми моделями с открытым и закрытым исходным кодом, формируя масштабируемую парадигму для устойчивого ASR в естественных условиях.

English

Despite rapid advances in automatic speech recognition (ASR) and large audio-language models, robust recognition in real-world environments remains limited by an "acoustic robustness bottleneck": models often lose acoustic grounding and produce omissions or hallucinations under severe, compositional distortions. We propose Mega-ASR, a unified ASR-in-the-wild framework that combines scalable compound-data construction with progressive acoustic-to-semantic optimization. We introduce Voices-in-the-Wild-2M, covering 7 classic acoustic phenomena and 54 physically plausible compound scenarios, and train Mega-ASR with Acoustic-to-Semantic Progressive Supervised Fine-Tuning and Dual-Granularity WER-Gated Policy Optimization. Extensive experiments demonstrate that Mega-ASR achieves significant advantages over prior state-of-the-art systems on adverse-condition ASR benchmarks (45.69% vs. 54.01% on VOiCES R4-B-F, and 21.49% vs. 29.34% on NOIZEUS Sta-0). On complex compositional acoustic scenarios, Mega-ASR further delivers over 30% relative WER reduction against strong open- and closed-source baselines, establishing a scalable paradigm for robust ASR in-the-wild.