FireRedASR2S: Um Sistema Automático de Reconhecimento de Fala All-in-One de Classe Industrial e Estado da Arte

Resumo

Apresentamos o FireRedASR2S, um sistema industrial de reconhecimento automático de fala (ASR) tudo-em-um de última geração. Ele integra quatro módulos em um *pipeline* unificado: ASR, Detecção de Atividade de Voz (VAD), Identificação de Língua Falada (LID) e Predição de Pontuação (Punc). Todos os módulos alcançam desempenho de estado da arte nos *benchmarks* avaliados: FireRedASR2: Um módulo ASR com duas variantes, FireRedASR2-LLM (8B+ parâmetros) e FireRedASR2-AED (1B+ parâmetros), suportando transcrição de fala e canto para mandarim, dialetos e sotaques chineses, inglês e alternância de código. Em comparação com o FireRedASR, o FireRedASR2 oferece precisão de reconhecimento aprimorada e maior cobertura de dialetos e sotaques. O FireRedASR2-LLM alcança 2,89% de CER médio em 4 *benchmarks* públicos de mandarim e 11,55% em 19 *benchmarks* públicos de dialetos e sotaques chineses, superando *baselines* competitivos, incluindo Doubao-ASR, Qwen3-ASR e Fun-ASR. FireRedVAD: Um módulo ultraleve (0,6M parâmetros) baseado na Rede de Memória Sequencial *Feedforward* Profunda (DFSMN), suportando VAD em *streaming*, VAD não em *streaming* e VAD multi-rótulo (mVAD). No *benchmark* FLEURS-VAD-102, ele alcança 97,57% de F1 a nível de *frame* e 99,60% de AUC-ROC, superando Silero-VAD, TEN-VAD, FunASR-VAD e WebRTC-VAD. FireRedLID: Um módulo LID *Encoder-Decoder* que suporta 100+ idiomas e 20+ dialetos e sotaques chineses. No FLEURS (82 idiomas), ele alcança 97,18% de precisão a nível de enunciado, superando Whisper e SpeechBrain. FireRedPunc: Um módulo de predição de pontuação no estilo BERT para chinês e inglês. Em *benchmarks* multidisciplinares, ele alcança 78,90% de F1 médio, superando o FunASR-Punc (62,77%). Para avançar a pesquisa em processamento de fala, disponibilizamos os pesos dos modelos e o código em https://github.com/FireRedTeam/FireRedASR2S.

English

We present FireRedASR2S, a state-of-the-art industrial-grade all-in-one automatic speech recognition (ASR) system. It integrates four modules in a unified pipeline: ASR, Voice Activity Detection (VAD), Spoken Language Identification (LID), and Punctuation Prediction (Punc). All modules achieve SOTA performance on the evaluated benchmarks: FireRedASR2: An ASR module with two variants, FireRedASR2-LLM (8B+ parameters) and FireRedASR2-AED (1B+ parameters), supporting speech and singing transcription for Mandarin, Chinese dialects and accents, English, and code-switching. Compared to FireRedASR, FireRedASR2 delivers improved recognition accuracy and broader dialect and accent coverage. FireRedASR2-LLM achieves 2.89% average CER on 4 public Mandarin benchmarks and 11.55% on 19 public Chinese dialects and accents benchmarks, outperforming competitive baselines including Doubao-ASR, Qwen3-ASR, and Fun-ASR. FireRedVAD: An ultra-lightweight module (0.6M parameters) based on the Deep Feedforward Sequential Memory Network (DFSMN), supporting streaming VAD, non-streaming VAD, and multi-label VAD (mVAD). On the FLEURS-VAD-102 benchmark, it achieves 97.57% frame-level F1 and 99.60% AUC-ROC, outperforming Silero-VAD, TEN-VAD, FunASR-VAD, and WebRTC-VAD. FireRedLID: An Encoder-Decoder LID module supporting 100+ languages and 20+ Chinese dialects and accents. On FLEURS (82 languages), it achieves 97.18% utterance-level accuracy, outperforming Whisper and SpeechBrain. FireRedPunc: A BERT-style punctuation prediction module for Chinese and English. On multi-domain benchmarks, it achieves 78.90% average F1, outperforming FunASR-Punc (62.77%). To advance research in speech processing, we release model weights and code at https://github.com/FireRedTeam/FireRedASR2S.