Typhon ASR en Temps Réel : FastConformer-Transducer pour la Reconnaissance Automatique de la Parole Thaïlandaise
Typhoon ASR Real-time: FastConformer-Transducer for Thai Automatic Speech Recognition
January 19, 2026
papers.authors: Warit Sirichotedumrong, Adisai Na-Thalang, Potsawee Manakul, Pittawat Taveekitworachai, Sittipong Sripaisarnmongkol, Kunat Pipatanakul
cs.AI
papers.abstract
Les grands modèles encodeur-décodeur comme Whisper offrent une transcription hors ligne performante mais restent impraticables pour les applications en flux continu en raison de leur latence élevée. Cependant, en raison de l'accessibilité des modèles pré-entraînés, le paysage thaïlandais de la reconnaissance automatique de la parole reste dominé par ces architectures hors ligne, créant un déficit critique en solutions efficaces de traitement en flux continu. Nous présentons Typhoon ASR Real-time, un modèle Transducteur FastConformer de 115 millions de paramètres pour la reconnaissance vocale thaïlandaise à faible latence. Nous démontrons qu'une normalisation textuelle rigoureuse peut égaler l'impact de l'augmentation de la taille des modèles : notre modèle compact réalise une réduction de 45x du coût computationnel par rapport à Whisper Large-v3 tout en offrant une précision comparable. Notre pipeline de normalisation résout les ambiguïtés systémiques de la transcription thaïlandaise — incluant la verbalisation contextuelle des nombres et les marqueurs de répétition (mai yamok) — créant ainsi des cibles d'entraînement cohérentes. Nous introduisons également une approche d'apprentissage curriculaire en deux étapes pour l'adaptation au dialecte Isan (du nord-est) qui préserve les performances en thaï central. Pour relever les défis de reproductibilité en reconnaissance vocale thaïlandaise, nous publions le Benchmark Typhoon ASR, un ensemble de données étiquetées manuellement de référence avec des transcriptions conformes aux conventions linguistiques thaïlandaises établies, fournissant des protocoles d'évaluation standardisés pour la communauté scientifique.
English
Large encoder-decoder models like Whisper achieve strong offline transcription but remain impractical for streaming applications due to high latency. However, due to the accessibility of pre-trained checkpoints, the open Thai ASR landscape remains dominated by these offline architectures, leaving a critical gap in efficient streaming solutions. We present Typhoon ASR Real-time, a 115M-parameter FastConformer-Transducer model for low-latency Thai speech recognition. We demonstrate that rigorous text normalization can match the impact of model scaling: our compact model achieves a 45x reduction in computational cost compared to Whisper Large-v3 while delivering comparable accuracy. Our normalization pipeline resolves systemic ambiguities in Thai transcription --including context-dependent number verbalization and repetition markers (mai yamok) --creating consistent training targets. We further introduce a two-stage curriculum learning approach for Isan (north-eastern) dialect adaptation that preserves Central Thai performance. To address reproducibility challenges in Thai ASR, we release the Typhoon ASR Benchmark, a gold-standard human-labeled datasets with transcriptions following established Thai linguistic conventions, providing standardized evaluation protocols for the research community.