FireRedASR2S: Un Sistema All-in-One di Riconoscimento Vocale Automatico di Livello Industriale allo Stato dell'Arte

Abstract

Presentiamo FireRedASR2S, un sistema automatico di riconoscimento vocale (ASR) all-in-one di livello industriale e allo stato dell'arte. Il sistema integra quattro moduli in una pipeline unificata: ASR, rilevamento dell'attività vocale (VAD), identificazione della lingua parlata (LID) e predizione della punteggiatura (Punc). Tutti i moduli raggiungono prestazioni SOTA sui benchmark valutati: FireRedASR2: un modulo ASR con due varianti, FireRedASR2-LLM (8B+ parametri) e FireRedASR2-AED (1B+ parametri), che supporta la trascrizione di parlato e canto per mandarino, dialetti e accenti cinesi, inglese e code-switching. Rispetto a FireRedASR, FireRedASR2 offre una precisione di riconoscimento migliorata e una copertura più ampia di dialetti e accenti. FireRedASR2-LLM raggiunge un CER medio del 2,89% su 4 benchmark pubblici di mandarino e dell'11,55% su 19 benchmark pubblici di dialetti e accenti cinesi, superando baseline competitive come Doubao-ASR, Qwen3-ASR e Fun-ASR. FireRedVAD: un modulo ultraleggero (0,6M parametri) basato sulla Deep Feedforward Sequential Memory Network (DFSMN), che supporta VAD in streaming, VAD non in streaming e VAD multi-label (mVAD). Sul benchmark FLEURS-VAD-102, raggiunge un F1 a livello di frame del 97,57% e un AUC-ROC del 99,60%, superando Silero-VAD, TEN-VAD, FunASR-VAD e WebRTC-VAD. FireRedLID: un modulo LID Encoder-Decoder che supporta 100+ lingue e 20+ dialetti e accenti cinesi. Su FLEURS (82 lingue), raggiunge un'accuratezza a livello di utterance del 97,18%, superando Whisper e SpeechBrain. FireRedPunc: un modulo per la predizione della punteggiatura in stile BERT per cinese e inglese. Su benchmark multi-dominio, raggiunge una F1 media del 78,90%, superando FunASR-Punc (62,77%). Per promuovere la ricerca nell'elaborazione del parlato, rilasciamo i pesi del modello e il codice su https://github.com/FireRedTeam/FireRedASR2S.

English

We present FireRedASR2S, a state-of-the-art industrial-grade all-in-one automatic speech recognition (ASR) system. It integrates four modules in a unified pipeline: ASR, Voice Activity Detection (VAD), Spoken Language Identification (LID), and Punctuation Prediction (Punc). All modules achieve SOTA performance on the evaluated benchmarks: FireRedASR2: An ASR module with two variants, FireRedASR2-LLM (8B+ parameters) and FireRedASR2-AED (1B+ parameters), supporting speech and singing transcription for Mandarin, Chinese dialects and accents, English, and code-switching. Compared to FireRedASR, FireRedASR2 delivers improved recognition accuracy and broader dialect and accent coverage. FireRedASR2-LLM achieves 2.89% average CER on 4 public Mandarin benchmarks and 11.55% on 19 public Chinese dialects and accents benchmarks, outperforming competitive baselines including Doubao-ASR, Qwen3-ASR, and Fun-ASR. FireRedVAD: An ultra-lightweight module (0.6M parameters) based on the Deep Feedforward Sequential Memory Network (DFSMN), supporting streaming VAD, non-streaming VAD, and multi-label VAD (mVAD). On the FLEURS-VAD-102 benchmark, it achieves 97.57% frame-level F1 and 99.60% AUC-ROC, outperforming Silero-VAD, TEN-VAD, FunASR-VAD, and WebRTC-VAD. FireRedLID: An Encoder-Decoder LID module supporting 100+ languages and 20+ Chinese dialects and accents. On FLEURS (82 languages), it achieves 97.18% utterance-level accuracy, outperforming Whisper and SpeechBrain. FireRedPunc: A BERT-style punctuation prediction module for Chinese and English. On multi-domain benchmarks, it achieves 78.90% average F1, outperforming FunASR-Punc (62.77%). To advance research in speech processing, we release model weights and code at https://github.com/FireRedTeam/FireRedASR2S.

FireRedASR2S: Un Sistema All-in-One di Riconoscimento Vocale Automatico di Livello Industriale allo Stato dell'Arte

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

Abstract

Support