FireRedASR2S: Een Alles-in-Één Automatische Spraakherkenningssysteem van Industriële Kwaliteit en Wereldklasse
FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System
March 11, 2026
Auteurs: Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao Hu
cs.AI
Samenvatting
Wij presenteren FireRedASR2S, een state-of-the-art, industrieel all-in-one automatisch spraakherkenningssysteem (ASR). Het integreert vier modules in een uniforme pijplijn: ASR, Voice Activity Detection (VAD), gesproken taalidentificatie (LID) en interpunctievoorspelling (Punc). Alle modules behalen SOTA-prestaties op de geëvalueerde benchmarks: FireRedASR2: Een ASR-module met twee varianten, FireRedASR2-LLM (8B+ parameters) en FireRedASR2-AED (1B+ parameters), die transcriptie van spraak en zang ondersteunt voor Mandarijn, Chinese dialecten en accenten, Engels en code-switching. Vergeleken met FireRedASR biedt FireRedASR2 een verbeterde herkenningsnauwkeurigheid en een bredere dekking van dialecten en accenten. FireRedASR2-LLM behaalt een gemiddelde CER van 2,89% op 4 publieke Mandarijn-benchmarks en 11,55% op 19 publieke Chinese dialect- en accentbenchmarks, en presteert beter dan competitieve baselines zoals Doubao-ASR, Qwen3-ASR en Fun-ASR. FireRedVAD: Een ultralichte module (0,6M parameters) gebaseerd op het Deep Feedforward Sequential Memory Network (DFSMN), die streaming VAD, niet-streaming VAD en multi-label VAD (mVAD) ondersteunt. Op de FLEURS-VAD-102 benchmark behaalt het 97,57% frame-level F1 en 99,60% AUC-ROC, en presteert beter dan Silero-VAD, TEN-VAD, FunASR-VAD en WebRTC-VAD. FireRedLID: Een Encoder-Decoder LID-module die meer dan 100 talen en meer dan 20 Chinese dialecten en accenten ondersteunt. Op FLEURS (82 talen) behaalt het 97,18% utterance-level nauwkeurigheid, wat beter is dan Whisper en SpeechBrain. FireRedPunc: Een BERT-stijl interpunctievoorspellingsmodule voor Chinees en Engels. Op multi-domein benchmarks behaalt het een gemiddelde F1 van 78,90%, beter dan FunASR-Punc (62,77%). Om onderzoek in spraakverwerking te bevorderen, geven we modelgewichten en code vrij op https://github.com/FireRedTeam/FireRedASR2S.
English
We present FireRedASR2S, a state-of-the-art industrial-grade all-in-one automatic speech recognition (ASR) system. It integrates four modules in a unified pipeline: ASR, Voice Activity Detection (VAD), Spoken Language Identification (LID), and Punctuation Prediction (Punc). All modules achieve SOTA performance on the evaluated benchmarks: FireRedASR2: An ASR module with two variants, FireRedASR2-LLM (8B+ parameters) and FireRedASR2-AED (1B+ parameters), supporting speech and singing transcription for Mandarin, Chinese dialects and accents, English, and code-switching. Compared to FireRedASR, FireRedASR2 delivers improved recognition accuracy and broader dialect and accent coverage. FireRedASR2-LLM achieves 2.89% average CER on 4 public Mandarin benchmarks and 11.55% on 19 public Chinese dialects and accents benchmarks, outperforming competitive baselines including Doubao-ASR, Qwen3-ASR, and Fun-ASR. FireRedVAD: An ultra-lightweight module (0.6M parameters) based on the Deep Feedforward Sequential Memory Network (DFSMN), supporting streaming VAD, non-streaming VAD, and multi-label VAD (mVAD). On the FLEURS-VAD-102 benchmark, it achieves 97.57% frame-level F1 and 99.60% AUC-ROC, outperforming Silero-VAD, TEN-VAD, FunASR-VAD, and WebRTC-VAD. FireRedLID: An Encoder-Decoder LID module supporting 100+ languages and 20+ Chinese dialects and accents. On FLEURS (82 languages), it achieves 97.18% utterance-level accuracy, outperforming Whisper and SpeechBrain. FireRedPunc: A BERT-style punctuation prediction module for Chinese and English. On multi-domain benchmarks, it achieves 78.90% average F1, outperforming FunASR-Punc (62.77%). To advance research in speech processing, we release model weights and code at https://github.com/FireRedTeam/FireRedASR2S.