ChatPaper.aiChatPaper

FireRedASR2S : Un système de reconnaissance automatique de la parole tout-en-un de qualité industrielle à la pointe de la technologie

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

March 11, 2026
Auteurs: Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao Hu
cs.AI

Résumé

Nous présentons FireRedASR2S, un système industriel de pointe tout-en-un de reconnaissance automatique de la parole (ASR). Il intègre quatre modules dans un pipeline unifié : ASR, Détection d'Activité Vocale (VAD), Identification de la Langue Parlée (LID) et Prédiction de la Ponctuation (Punc). Tous les modules atteignent des performances de pointe sur les benchmarks évalués : **FireRedASR2** : Un module ASR avec deux variantes, FireRedASR2-LLM (8B+ paramètres) et FireRedASR2-AED (1B+ paramètres), prenant en charge la transcription de la parole et du chant pour le mandarin, les dialectes et accents chinois, l'anglais et l'alternance codique. Comparé à FireRedASR, FireRedASR2 offre une précision de reconnaissance améliorée et une couverture plus large des dialectes et accents. FireRedASR2-LLM atteint un CER moyen de 2,89 % sur 4 benchmarks publics de mandarin et de 11,55 % sur 19 benchmarks publics de dialectes et accents chinois, surpassant les bases de référence compétitives incluant Doubao-ASR, Qwen3-ASR et Fun-ASR. **FireRedVAD** : Un module ultraléger (0,6M paramètres) basé sur le Deep Feedforward Sequential Memory Network (DFSMN), prenant en charge le VAD en flux, le VAD non-streaming et le VAD multi-label (mVAD). Sur le benchmark FLEURS-VAD-102, il atteint un F1 au niveau frame de 97,57 % et une AUC-ROC de 99,60 %, surpassant Silero-VAD, TEN-VAD, FunASR-VAD et WebRTC-VAD. **FireRedLID** : Un module LID de type Encodeur-Décodeur prenant en charge plus de 100 langues et plus de 20 dialectes et accents chinois. Sur FLEURS (82 langues), il atteint une précision au niveau de l'énoncé de 97,18 %, surpassant Whisper et SpeechBrain. **FireRedPunc** : Un module de prédiction de la ponctuation de style BERT pour le chinois et l'anglais. Sur des benchmarks multi-domaines, il atteint un F1 moyen de 78,90 %, surpassant FunASR-Punc (62,77 %). Pour faire avancer la recherche dans le traitement de la parole, nous publions les poids des modèles et le code à l'adresse https://github.com/FireRedTeam/FireRedASR2S.
English
We present FireRedASR2S, a state-of-the-art industrial-grade all-in-one automatic speech recognition (ASR) system. It integrates four modules in a unified pipeline: ASR, Voice Activity Detection (VAD), Spoken Language Identification (LID), and Punctuation Prediction (Punc). All modules achieve SOTA performance on the evaluated benchmarks: FireRedASR2: An ASR module with two variants, FireRedASR2-LLM (8B+ parameters) and FireRedASR2-AED (1B+ parameters), supporting speech and singing transcription for Mandarin, Chinese dialects and accents, English, and code-switching. Compared to FireRedASR, FireRedASR2 delivers improved recognition accuracy and broader dialect and accent coverage. FireRedASR2-LLM achieves 2.89% average CER on 4 public Mandarin benchmarks and 11.55% on 19 public Chinese dialects and accents benchmarks, outperforming competitive baselines including Doubao-ASR, Qwen3-ASR, and Fun-ASR. FireRedVAD: An ultra-lightweight module (0.6M parameters) based on the Deep Feedforward Sequential Memory Network (DFSMN), supporting streaming VAD, non-streaming VAD, and multi-label VAD (mVAD). On the FLEURS-VAD-102 benchmark, it achieves 97.57% frame-level F1 and 99.60% AUC-ROC, outperforming Silero-VAD, TEN-VAD, FunASR-VAD, and WebRTC-VAD. FireRedLID: An Encoder-Decoder LID module supporting 100+ languages and 20+ Chinese dialects and accents. On FLEURS (82 languages), it achieves 97.18% utterance-level accuracy, outperforming Whisper and SpeechBrain. FireRedPunc: A BERT-style punctuation prediction module for Chinese and English. On multi-domain benchmarks, it achieves 78.90% average F1, outperforming FunASR-Punc (62.77%). To advance research in speech processing, we release model weights and code at https://github.com/FireRedTeam/FireRedASR2S.
PDF42March 15, 2026