FireRedASR2S: 산업 등급 올인원 자동 음성 인식 시스템의 최첨단 기술
FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System
March 11, 2026
저자: Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao Hu
cs.AI
초록
저희는 산업용 최첨단 올인원 자동 음성 인식(ASR) 시스템인 FireRedASR2S를 소개합니다. 본 시스템은 ASR, 음성 활동 탐지(VAD), 구어 언어 식별(LID), 문장 부호 예측(Punc)이라는 4가지 모듈을 통합 파이프라인으로 구성합니다. 모든 모듈은 평가된 벤치마크에서 SOTA 성능을 달성했습니다: FireRedASR2: FireRedASR2-LLM(80억+ 매개변수)과 FireRedASR2-AED(10억+ 매개변수) 두 가지 변종을 가진 ASR 모듈로, 표준 중국어, 중국어 방언 및 억양, 영어, 코드 전환에 대한 음성 및 노래 전사를 지원합니다. FireRedASR 대비 향상된 인식 정확도와 더 넓은 방언 및 억양 커버리지를 제공합니다. FireRedASR2-LLM은 4개의 공개 표준 중국어 벤치마크에서 평균 2.89% CER, 19개의 공개 중국어 방언 및 억양 벤치마크에서 11.55% CER을 달성하여 Doubao-ASR, Qwen3-ASR, Fun-ASR 등을 포함한 경쟁 기준선들을 능가합니다. FireRedVAD: DFSMN(Deep Feedforward Sequential Memory Network) 기반의 초경량 모듈(60만 매개변수)로, 스트리밍 VAD, 비스트리밍 VAD, 다중 레이블 VAD(mVAD)를 지원합니다. FLEURS-VAD-102 벤치마크에서 프레임 수준 F1 97.57%, AUC-ROC 99.60%를 달성하여 Silero-VAD, TEN-VAD, FunASR-VAD, WebRTC-VAD를 능가합니다. FireRedLID: 100개 이상의 언어와 20개 이상의 중국어 방언 및 억양을 지원하는 Encoder-Decoder LID 모듈입니다. FLEURS(82개 언어)에서 발화 수준 정확도 97.18%를 달성하여 Whisper와 SpeechBrain을 능가합니다. FireRedPunc: 중국어와 영어를 위한 BERT 스타일 문장 부호 예측 모듈입니다. 다중 도메인 벤치마크에서 평균 F1 78.90%를 달성하여 FunASR-Punc(62.77%)를 능가합니다. 음성 처리 연구 발전을 위해 모델 가중치와 코드를 https://github.com/FireRedTeam/FireRedASR2S 에 공개합니다.
English
We present FireRedASR2S, a state-of-the-art industrial-grade all-in-one automatic speech recognition (ASR) system. It integrates four modules in a unified pipeline: ASR, Voice Activity Detection (VAD), Spoken Language Identification (LID), and Punctuation Prediction (Punc). All modules achieve SOTA performance on the evaluated benchmarks: FireRedASR2: An ASR module with two variants, FireRedASR2-LLM (8B+ parameters) and FireRedASR2-AED (1B+ parameters), supporting speech and singing transcription for Mandarin, Chinese dialects and accents, English, and code-switching. Compared to FireRedASR, FireRedASR2 delivers improved recognition accuracy and broader dialect and accent coverage. FireRedASR2-LLM achieves 2.89% average CER on 4 public Mandarin benchmarks and 11.55% on 19 public Chinese dialects and accents benchmarks, outperforming competitive baselines including Doubao-ASR, Qwen3-ASR, and Fun-ASR. FireRedVAD: An ultra-lightweight module (0.6M parameters) based on the Deep Feedforward Sequential Memory Network (DFSMN), supporting streaming VAD, non-streaming VAD, and multi-label VAD (mVAD). On the FLEURS-VAD-102 benchmark, it achieves 97.57% frame-level F1 and 99.60% AUC-ROC, outperforming Silero-VAD, TEN-VAD, FunASR-VAD, and WebRTC-VAD. FireRedLID: An Encoder-Decoder LID module supporting 100+ languages and 20+ Chinese dialects and accents. On FLEURS (82 languages), it achieves 97.18% utterance-level accuracy, outperforming Whisper and SpeechBrain. FireRedPunc: A BERT-style punctuation prediction module for Chinese and English. On multi-domain benchmarks, it achieves 78.90% average F1, outperforming FunASR-Punc (62.77%). To advance research in speech processing, we release model weights and code at https://github.com/FireRedTeam/FireRedASR2S.