FireRedASR2S: Передовая промышленная универсальная система автоматического распознавания речи

Аннотация

Мы представляем FireRedASR2S — передовую промышленную все-в-одном систему автоматического распознавания речи (ASR). Она объединяет четыре модуля в единый конвейер: ASR, детектирование речевой активности (VAD), идентификация языка речи (LID) и предсказание пунктуации (Punc). Все модули демонстрируют наилучшие результаты (SOTA) на оцениваемых эталонных наборах данных. FireRedASR2: Модуль ASR с двумя вариантами, FireRedASR2-LLM (8B+ параметров) и FireRedASR2-AED (1B+ параметров), поддерживающий транскрипцию речи и пения для путунхуа, китайских диалектов и акцентов, английского языка и код-свитчинга. По сравнению с FireRedASR, FireRedASR2 обеспечивает повышенную точность распознавания и более широкий охват диалектов и акцентов. FireRedASR2-LLM достигает 2.89% среднего CER на 4 публичных бенчмарках для путунхуа и 11.55% на 19 публичных бенчмарках для китайских диалектов и акцентов, превосходя конкурирующие базовые уровни, включая Doubao-ASR, Qwen3-ASR и Fun-ASR. FireRedVAD: Сверхлегкий модуль (0.6M параметров) на основе Deep Feedforward Sequential Memory Network (DFSMN), поддерживающий потоковое VAD, непотоковое VAD и многометочное VAD (mVAD). На бенчмарке FLEURS-VAD-102 он достигает 97.57% F1 на уровне фреймов и 99.60% AUC-ROC, превосходя Silero-VAD, TEN-VAD, FunASR-VAD и WebRTC-VAD. FireRedLID: Модуль LID типа Encoder-Decoder, поддерживающий 100+ языков и 20+ китайских диалектов и акцентов. На FLEURS (82 языка) он достигает 97.18% точности на уровне высказывания, превосходя Whisper и SpeechBrain. FireRedPunc: Модуль предсказания пунктуации в стиле BERT для китайского и английского языков. На многодоменных бенчмарках он достигает 78.90% среднего F1, превосходя FunASR-Punc (62.77%). Для содействия исследованиям в области обработки речи мы публикуем веса моделей и код по адресу https://github.com/FireRedTeam/FireRedASR2S.

English

We present FireRedASR2S, a state-of-the-art industrial-grade all-in-one automatic speech recognition (ASR) system. It integrates four modules in a unified pipeline: ASR, Voice Activity Detection (VAD), Spoken Language Identification (LID), and Punctuation Prediction (Punc). All modules achieve SOTA performance on the evaluated benchmarks: FireRedASR2: An ASR module with two variants, FireRedASR2-LLM (8B+ parameters) and FireRedASR2-AED (1B+ parameters), supporting speech and singing transcription for Mandarin, Chinese dialects and accents, English, and code-switching. Compared to FireRedASR, FireRedASR2 delivers improved recognition accuracy and broader dialect and accent coverage. FireRedASR2-LLM achieves 2.89% average CER on 4 public Mandarin benchmarks and 11.55% on 19 public Chinese dialects and accents benchmarks, outperforming competitive baselines including Doubao-ASR, Qwen3-ASR, and Fun-ASR. FireRedVAD: An ultra-lightweight module (0.6M parameters) based on the Deep Feedforward Sequential Memory Network (DFSMN), supporting streaming VAD, non-streaming VAD, and multi-label VAD (mVAD). On the FLEURS-VAD-102 benchmark, it achieves 97.57% frame-level F1 and 99.60% AUC-ROC, outperforming Silero-VAD, TEN-VAD, FunASR-VAD, and WebRTC-VAD. FireRedLID: An Encoder-Decoder LID module supporting 100+ languages and 20+ Chinese dialects and accents. On FLEURS (82 languages), it achieves 97.18% utterance-level accuracy, outperforming Whisper and SpeechBrain. FireRedPunc: A BERT-style punctuation prediction module for Chinese and English. On multi-domain benchmarks, it achieves 78.90% average F1, outperforming FunASR-Punc (62.77%). To advance research in speech processing, we release model weights and code at https://github.com/FireRedTeam/FireRedASR2S.

FireRedASR2S: Передовая промышленная универсальная система автоматического распознавания речи

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

Аннотация

Support