ChatPaper.aiChatPaper

FireRedASR2S: Un Sistema Integral de Reconocimiento Automático del Habla de Grado Industrial y Última Generación

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

March 11, 2026
Autores: Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao Hu
cs.AI

Resumen

Presentamos FireRedASR2S, un sistema industrial integral de reconocimiento automático del habla (ASR) de última generación. Este sistema integra cuatro módulos en una canalización unificada: ASR, Detección de Actividad de Voz (VAD), Identificación de Lengua Hablada (LID) y Predicción de Puntuación (Punc). Todos los módulos alcanzan un rendimiento de vanguardia (SOTA) en los puntos de referencia evaluados: * **FireRedASR2:** Un módulo ASR con dos variantes, FireRedASR2-LLM (8B+ parámetros) y FireRedASR2-AED (1B+ parámetros), que soporta la transcripción de habla y canto para mandarín, dialectos y acentos del chino, inglés y conmutación de código. En comparación con FireRedASR, FireRedASR2 ofrece una precisión de reconocimiento mejorada y una cobertura más amplia de dialectos y acentos. FireRedASR2-LLM logra un 2.89% de CER promedio en 4 puntos de referencia públicos de mandarín y un 11.55% en 19 puntos de referencia públicos de dialectos y acentos del chino, superando a líneas base competitivas como Doubao-ASR, Qwen3-ASR y Fun-ASR. * **FireRedVAD:** Un módulo ultraligero (0.6M parámetros) basado en la Red de Memoria Secuencial de Alimentación Directa Profunda (DFSMN), que soporta VAD en flujo continuo (streaming), VAD no continuo y VAD multi-etiqueta (mVAD). En el punto de referencia FLEURS-VAD-102, alcanza un 97.57% de F1 a nivel de frame y un 99.60% de AUC-ROC, superando a Silero-VAD, TEN-VAD, FunASR-VAD y WebRTC-VAD. * **FireRedLID:** Un módulo LID de tipo Codificador-Decodificador que soporta 100+ lenguas y 20+ dialectos y acentos del chino. En FLEURS (82 lenguas), logra una precisión del 97.18% a nivel de enunciado, superando a Whisper y SpeechBrain. * **FireRedPunc:** Un módulo de predicción de puntuación estilo BERT para chino e inglés. En puntos de referencia multidisciplinares, alcanza un 78.90% de F1 promedio, superando a FunASR-Punc (62.77%). Para impulsar la investigación en el procesamiento del habla, publicamos los pesos de los modelos y el código en https://github.com/FireRedTeam/FireRedASR2S.
English
We present FireRedASR2S, a state-of-the-art industrial-grade all-in-one automatic speech recognition (ASR) system. It integrates four modules in a unified pipeline: ASR, Voice Activity Detection (VAD), Spoken Language Identification (LID), and Punctuation Prediction (Punc). All modules achieve SOTA performance on the evaluated benchmarks: FireRedASR2: An ASR module with two variants, FireRedASR2-LLM (8B+ parameters) and FireRedASR2-AED (1B+ parameters), supporting speech and singing transcription for Mandarin, Chinese dialects and accents, English, and code-switching. Compared to FireRedASR, FireRedASR2 delivers improved recognition accuracy and broader dialect and accent coverage. FireRedASR2-LLM achieves 2.89% average CER on 4 public Mandarin benchmarks and 11.55% on 19 public Chinese dialects and accents benchmarks, outperforming competitive baselines including Doubao-ASR, Qwen3-ASR, and Fun-ASR. FireRedVAD: An ultra-lightweight module (0.6M parameters) based on the Deep Feedforward Sequential Memory Network (DFSMN), supporting streaming VAD, non-streaming VAD, and multi-label VAD (mVAD). On the FLEURS-VAD-102 benchmark, it achieves 97.57% frame-level F1 and 99.60% AUC-ROC, outperforming Silero-VAD, TEN-VAD, FunASR-VAD, and WebRTC-VAD. FireRedLID: An Encoder-Decoder LID module supporting 100+ languages and 20+ Chinese dialects and accents. On FLEURS (82 languages), it achieves 97.18% utterance-level accuracy, outperforming Whisper and SpeechBrain. FireRedPunc: A BERT-style punctuation prediction module for Chinese and English. On multi-domain benchmarks, it achieves 78.90% average F1, outperforming FunASR-Punc (62.77%). To advance research in speech processing, we release model weights and code at https://github.com/FireRedTeam/FireRedASR2S.
PDF42March 15, 2026