台風ASRリアルタイム:タイ語自動音声認識のためのFastConformer-トランスデューサ
Typhoon ASR Real-time: FastConformer-Transducer for Thai Automatic Speech Recognition
January 19, 2026
著者: Warit Sirichotedumrong, Adisai Na-Thalang, Potsawee Manakul, Pittawat Taveekitworachai, Sittipong Sripaisarnmongkol, Kunat Pipatanakul
cs.AI
要旨
Whisperのような大規模エンコーダ・デコーダモデルは、オフライン音声認識では強力な性能を発揮するものの、高遅延のためストリーミング応用には非現実的です。しかし、事前学習済みチェックポイントの利用容易さから、タイ語ASRの現状はこれらのオフラインアーキテクチャが主流であり、効率的なストリーミングソリューションは重大な空白領域となっています。本論文では、低遅延タイ語音声認識のための115MパラメータFastConformer-Transducerモデル「Typhoon ASR Real-time」を提案します。厳密なテキスト正規化がモデル規模拡大と同等の効果をもたらすことを実証し、Whisper Large-v3と比較して計算コストを45分の1に削減しつつ同等の精度を達成しました。当社の正規化パイプラインは、文脈依存の数字読み上げや反復記号(ไม้ยมก)を含むタイ語文字起こしの体系的な曖昧性を解決し、一貫した学習目標を生成します。さらに、中央タイ語性能を維持しつつイーサン方言(東北方言)適応を行う2段階カリキュラム学習手法を導入しました。タイ語ASRの再現性課題に対処するため、確立されたタイ語言語規範に沿った転写を含むゴールドスタンダードの人手ラベルデータセット「Typhoon ASR Benchmark」を公開し、研究コミュニティに標準化された評価プロトコルを提供します。
English
Large encoder-decoder models like Whisper achieve strong offline transcription but remain impractical for streaming applications due to high latency. However, due to the accessibility of pre-trained checkpoints, the open Thai ASR landscape remains dominated by these offline architectures, leaving a critical gap in efficient streaming solutions. We present Typhoon ASR Real-time, a 115M-parameter FastConformer-Transducer model for low-latency Thai speech recognition. We demonstrate that rigorous text normalization can match the impact of model scaling: our compact model achieves a 45x reduction in computational cost compared to Whisper Large-v3 while delivering comparable accuracy. Our normalization pipeline resolves systemic ambiguities in Thai transcription --including context-dependent number verbalization and repetition markers (mai yamok) --creating consistent training targets. We further introduce a two-stage curriculum learning approach for Isan (north-eastern) dialect adaptation that preserves Central Thai performance. To address reproducibility challenges in Thai ASR, we release the Typhoon ASR Benchmark, a gold-standard human-labeled datasets with transcriptions following established Thai linguistic conventions, providing standardized evaluation protocols for the research community.