FireRedASR2S: Un Sistema Integral de Reconocimiento Automático del Habla de Grado Industrial y Última Generación

Resumen

Presentamos FireRedASR2S, un sistema industrial integral de reconocimiento automático del habla (ASR) de última generación. Este sistema integra cuatro módulos en una canalización unificada: ASR, Detección de Actividad de Voz (VAD), Identificación de Lengua Hablada (LID) y Predicción de Puntuación (Punc). Todos los módulos alcanzan un rendimiento de vanguardia (SOTA) en los puntos de referencia evaluados: * **FireRedASR2:** Un módulo ASR con dos variantes, FireRedASR2-LLM (8B+ parámetros) y FireRedASR2-AED (1B+ parámetros), que soporta la transcripción de habla y canto para mandarín, dialectos y acentos del chino, inglés y conmutación de código. En comparación con FireRedASR, FireRedASR2 ofrece una precisión de reconocimiento mejorada y una cobertura más amplia de dialectos y acentos. FireRedASR2-LLM logra un 2.89% de CER promedio en 4 puntos de referencia públicos de mandarín y un 11.55% en 19 puntos de referencia públicos de dialectos y acentos del chino, superando a líneas base competitivas como Doubao-ASR, Qwen3-ASR y Fun-ASR. * **FireRedVAD:** Un módulo ultraligero (0.6M parámetros) basado en la Red de Memoria Secuencial de Alimentación Directa Profunda (DFSMN), que soporta VAD en flujo continuo (streaming), VAD no continuo y VAD multi-etiqueta (mVAD). En el punto de referencia FLEURS-VAD-102, alcanza un 97.57% de F1 a nivel de frame y un 99.60% de AUC-ROC, superando a Silero-VAD, TEN-VAD, FunASR-VAD y WebRTC-VAD. * **FireRedLID:** Un módulo LID de tipo Codificador-Decodificador que soporta 100+ lenguas y 20+ dialectos y acentos del chino. En FLEURS (82 lenguas), logra una precisión del 97.18% a nivel de enunciado, superando a Whisper y SpeechBrain. * **FireRedPunc:** Un módulo de predicción de puntuación estilo BERT para chino e inglés. En puntos de referencia multidisciplinares, alcanza un 78.90% de F1 promedio, superando a FunASR-Punc (62.77%). Para impulsar la investigación en el procesamiento del habla, publicamos los pesos de los modelos y el código en https://github.com/FireRedTeam/FireRedASR2S.

English

We present FireRedASR2S, a state-of-the-art industrial-grade all-in-one automatic speech recognition (ASR) system. It integrates four modules in a unified pipeline: ASR, Voice Activity Detection (VAD), Spoken Language Identification (LID), and Punctuation Prediction (Punc). All modules achieve SOTA performance on the evaluated benchmarks: FireRedASR2: An ASR module with two variants, FireRedASR2-LLM (8B+ parameters) and FireRedASR2-AED (1B+ parameters), supporting speech and singing transcription for Mandarin, Chinese dialects and accents, English, and code-switching. Compared to FireRedASR, FireRedASR2 delivers improved recognition accuracy and broader dialect and accent coverage. FireRedASR2-LLM achieves 2.89% average CER on 4 public Mandarin benchmarks and 11.55% on 19 public Chinese dialects and accents benchmarks, outperforming competitive baselines including Doubao-ASR, Qwen3-ASR, and Fun-ASR. FireRedVAD: An ultra-lightweight module (0.6M parameters) based on the Deep Feedforward Sequential Memory Network (DFSMN), supporting streaming VAD, non-streaming VAD, and multi-label VAD (mVAD). On the FLEURS-VAD-102 benchmark, it achieves 97.57% frame-level F1 and 99.60% AUC-ROC, outperforming Silero-VAD, TEN-VAD, FunASR-VAD, and WebRTC-VAD. FireRedLID: An Encoder-Decoder LID module supporting 100+ languages and 20+ Chinese dialects and accents. On FLEURS (82 languages), it achieves 97.18% utterance-level accuracy, outperforming Whisper and SpeechBrain. FireRedPunc: A BERT-style punctuation prediction module for Chinese and English. On multi-domain benchmarks, it achieves 78.90% average F1, outperforming FunASR-Punc (62.77%). To advance research in speech processing, we release model weights and code at https://github.com/FireRedTeam/FireRedASR2S.

FireRedASR2S: Un Sistema Integral de Reconocimiento Automático del Habla de Grado Industrial y Última Generación

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

Resumen

Support