ChatPaper.aiChatPaper

FireRedASR2S: Ein hochmodernes, industrietaugliches All-in-One-System für automatische Spracherkennung

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

March 11, 2026
Autoren: Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao Hu
cs.AI

Zusammenfassung

Wir stellen FireRedASR2S vor, ein industrietaugliches All-in-One-System zur automatischen Spracherkennung (ASR) auf dem neuesten Stand der Technik. Es integriert vier Module in einer einheitlichen Pipeline: ASR, Sprachaktivitätserkennung (VAD), gesprochene Sprachenidentifikation (LID) und Interpunktionsvorhersage (Punc). Alle Module erzielen State-of-the-Art-Leistung auf den evaluierten Benchmarks: **FireRedASR2**: Ein ASR-Modul mit zwei Varianten, FireRedASR2-LLM (8B+ Parameter) und FireRedASR2-AED (1B+ Parameter), das die Transkription von Sprache und Gesang für Mandarin, chinesische Dialekte und Akzente, Englisch und Code-Switching unterstützt. Im Vergleich zu FireRedASR bietet FireRedASR2 eine verbesserte Erkennungsgenauigkeit und eine breitere Abdeckung von Dialekten und Akzenten. FireRedASR2-LLM erreicht eine durchschnittliche Zeichenfehlerrate (CER) von 2,89 % auf 4 öffentlichen Mandarin-Benchmarks und 11,55 % auf 19 öffentlichen Benchmarks für chinesische Dialekte und Akzente und übertrifft damit konkurrierende Baselines wie Doubao-ASR, Qwen3-ASR und Fun-ASR. **FireRedVAD**: Ein ultraleichtes Modul (0,6 Mio. Parameter) basierend auf dem Deep Feedforward Sequential Memory Network (DFSMN), das Streaming-VAD, Nicht-Streaming-VAD und Multi-Label-VAD (mVAD) unterstützt. Auf dem FLEURS-VAD-102-Benchmark erreicht es einen Frame-Level-F1-Score von 97,57 % und eine AUC-ROC von 99,60 % und übertrifft damit Silero-VAD, TEN-VAD, FunASR-VAD und WebRTC-VAD. **FireRedLID**: Ein Encoder-Decoder-LID-Modul, das über 100 Sprachen und mehr als 20 chinesische Dialekte und Akzente unterstützt. Auf FLEURS (82 Sprachen) erreicht es eine Äußerungsgenauigkeit von 97,18 % und übertrifft damit Whisper und SpeechBrain. **FireRedPunc**: Ein BERT-artiges Modul zur Interpunktionsvorhersage für Chinesisch und Englisch. Auf Multi-Domain-Benchmarks erreicht es einen durchschnittlichen F1-Score von 78,90 % und übertrifft damit FunASR-Punc (62,77 %). Um die Forschung in der Sprachverarbeitung voranzutreiben, veröffentlichen wir die Modellgewichte und den Code unter https://github.com/FireRedTeam/FireRedASR2S.
English
We present FireRedASR2S, a state-of-the-art industrial-grade all-in-one automatic speech recognition (ASR) system. It integrates four modules in a unified pipeline: ASR, Voice Activity Detection (VAD), Spoken Language Identification (LID), and Punctuation Prediction (Punc). All modules achieve SOTA performance on the evaluated benchmarks: FireRedASR2: An ASR module with two variants, FireRedASR2-LLM (8B+ parameters) and FireRedASR2-AED (1B+ parameters), supporting speech and singing transcription for Mandarin, Chinese dialects and accents, English, and code-switching. Compared to FireRedASR, FireRedASR2 delivers improved recognition accuracy and broader dialect and accent coverage. FireRedASR2-LLM achieves 2.89% average CER on 4 public Mandarin benchmarks and 11.55% on 19 public Chinese dialects and accents benchmarks, outperforming competitive baselines including Doubao-ASR, Qwen3-ASR, and Fun-ASR. FireRedVAD: An ultra-lightweight module (0.6M parameters) based on the Deep Feedforward Sequential Memory Network (DFSMN), supporting streaming VAD, non-streaming VAD, and multi-label VAD (mVAD). On the FLEURS-VAD-102 benchmark, it achieves 97.57% frame-level F1 and 99.60% AUC-ROC, outperforming Silero-VAD, TEN-VAD, FunASR-VAD, and WebRTC-VAD. FireRedLID: An Encoder-Decoder LID module supporting 100+ languages and 20+ Chinese dialects and accents. On FLEURS (82 languages), it achieves 97.18% utterance-level accuracy, outperforming Whisper and SpeechBrain. FireRedPunc: A BERT-style punctuation prediction module for Chinese and English. On multi-domain benchmarks, it achieves 78.90% average F1, outperforming FunASR-Punc (62.77%). To advance research in speech processing, we release model weights and code at https://github.com/FireRedTeam/FireRedASR2S.
PDF42March 15, 2026