FireRedASR2S:最先端産業用オールインワン自動音声認識システム
FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System
March 11, 2026
著者: Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao Hu
cs.AI
要旨
本論文では、産業レベルのオールインワン自動音声認識システム「FireRedASR2S」を提案する。本システムは、ASR、音声活動検出(VAD)、話者言語識別(LID)、句読点予測(Punc)の4モジュールを統合パイプラインとして統合している。全てのモジュールが評価ベンチマークでSOTA性能を達成した:FireRedASR2:2つのバリアント(FireRedASR2-LLM:80億以上、FireRedASR2-AED:10億以上のパラメータ)を有するASRモジュール。中国語普通話、中国方言・アクセント、英語、コードスイッチングに対応し、音声および歌唱の転写をサポート。前世代のFireRedASRと比較し、認識精度が向上し、方言・アクセントのカバレッジが拡大。FireRedASR2-LLMは、公開ベンチマーク4種で平均CER 2.89%、中国方言・アクセントベンチマーク19種で平均CER 11.55%を達成し、Doubao-ASR、Qwen3-ASR、Fun-ASRなどの競合ベースラインを上回った。FireRedVAD:Deep Feedforward Sequential Memory Network(DFSMN)ベースの超軽量モジュール(60万パラメータ)。ストリーミングVAD、非ストリーミングVAD、マルチラベルVAD(mVAD)をサポート。FLEURS-VAD-102ベンチマークにおいて、フレームレベルF1値97.57%、AUC-ROC 99.60%を達成し、Silero-VAD、TEN-VAD、FunASR-VAD、WebRTC-VADを凌駕。FireRedLID:100以上の言語と20以上の中国方言・アクセントをサポートするEncoder-Decoder型LIDモジュール。FLEURS(82言語)において発話レベル精度97.18%を達成し、Whisper、SpeechBrainを上回る。FireRedPunc:中国語と英語向けのBERTスタイルの句読点予測モジュール。マルチドメインベンチマークで平均F1値78.90%を達成し、FunASR-Punc(62.77%)を優位に上回った。音声処理研究の発展に向け、モデル重みとコードをhttps://github.com/FireRedTeam/FireRedASR2S で公開する。
English
We present FireRedASR2S, a state-of-the-art industrial-grade all-in-one automatic speech recognition (ASR) system. It integrates four modules in a unified pipeline: ASR, Voice Activity Detection (VAD), Spoken Language Identification (LID), and Punctuation Prediction (Punc). All modules achieve SOTA performance on the evaluated benchmarks: FireRedASR2: An ASR module with two variants, FireRedASR2-LLM (8B+ parameters) and FireRedASR2-AED (1B+ parameters), supporting speech and singing transcription for Mandarin, Chinese dialects and accents, English, and code-switching. Compared to FireRedASR, FireRedASR2 delivers improved recognition accuracy and broader dialect and accent coverage. FireRedASR2-LLM achieves 2.89% average CER on 4 public Mandarin benchmarks and 11.55% on 19 public Chinese dialects and accents benchmarks, outperforming competitive baselines including Doubao-ASR, Qwen3-ASR, and Fun-ASR. FireRedVAD: An ultra-lightweight module (0.6M parameters) based on the Deep Feedforward Sequential Memory Network (DFSMN), supporting streaming VAD, non-streaming VAD, and multi-label VAD (mVAD). On the FLEURS-VAD-102 benchmark, it achieves 97.57% frame-level F1 and 99.60% AUC-ROC, outperforming Silero-VAD, TEN-VAD, FunASR-VAD, and WebRTC-VAD. FireRedLID: An Encoder-Decoder LID module supporting 100+ languages and 20+ Chinese dialects and accents. On FLEURS (82 languages), it achieves 97.18% utterance-level accuracy, outperforming Whisper and SpeechBrain. FireRedPunc: A BERT-style punctuation prediction module for Chinese and English. On multi-domain benchmarks, it achieves 78.90% average F1, outperforming FunASR-Punc (62.77%). To advance research in speech processing, we release model weights and code at https://github.com/FireRedTeam/FireRedASR2S.