Typhoon ASR Echtzeit: FastConformer-Transducer für die thailändische automatische Spracherkennung
Typhoon ASR Real-time: FastConformer-Transducer for Thai Automatic Speech Recognition
January 19, 2026
papers.authors: Warit Sirichotedumrong, Adisai Na-Thalang, Potsawee Manakul, Pittawat Taveekitworachai, Sittipong Sripaisarnmongkol, Kunat Pipatanakul
cs.AI
papers.abstract
Große Encoder-Decoder-Modelle wie Whisper erzielen starke Offline-Transkriptionsergebnisse, bleiben jedoch aufgrund hoher Latenz für Streaming-Anwendungen unpraktikabel. Dennoch wird die offene thailändische ASR-Landschaft aufgrund der Verfügbarkeit vortrainierter Checkpoints weiterhin von diesen Offline-Architekturen dominiert, was eine kritische Lücke bei effizienten Streaming-Lösungen hinterlässt. Wir präsentieren Typhoon ASR Real-time, ein FastConformer-Transducer-Modell mit 115M Parametern für die latenzarme thailändische Spracherkennung. Wir zeigen, dass rigorose Textnormalisierung die Auswirkungen von Modellskalierung erreichen kann: Unser kompaktes Modell erzielt eine 45-fache Reduzierung der Rechenkosten im Vergleich zu Whisper Large-v3 bei vergleichbarer Genauigkeit. Unsere Normalisierungspipeline löst systematische Mehrdeutigkeiten in der thailändischen Transkription – einschließlich kontextabhängiger Zahlendarstellung und Wiederholungsmarkierungen (mai yamok) – und schafft so konsistente Trainingsziele. Weiterhin führen wir einen zweistufigen Curriculum-Learning-Ansatz für die Adaption an den Isan-Dialekt (Nordost-Thailand) ein, der die Leistung im Zentralthailändischen erhält. Um die Reproduzierbarkeitsherausforderungen in der thailändischen ASR zu adressieren, veröffentlichen wir den Typhoon ASR Benchmark, einen Goldstandard menschlich annotierter Datensätze mit Transkriptionen nach etablierten thailändischen Sprachkonventionen, der standardisierte Evaluierungsprotokolle für die Forschungsgemeinschaft bereitstellt.
English
Large encoder-decoder models like Whisper achieve strong offline transcription but remain impractical for streaming applications due to high latency. However, due to the accessibility of pre-trained checkpoints, the open Thai ASR landscape remains dominated by these offline architectures, leaving a critical gap in efficient streaming solutions. We present Typhoon ASR Real-time, a 115M-parameter FastConformer-Transducer model for low-latency Thai speech recognition. We demonstrate that rigorous text normalization can match the impact of model scaling: our compact model achieves a 45x reduction in computational cost compared to Whisper Large-v3 while delivering comparable accuracy. Our normalization pipeline resolves systemic ambiguities in Thai transcription --including context-dependent number verbalization and repetition markers (mai yamok) --creating consistent training targets. We further introduce a two-stage curriculum learning approach for Isan (north-eastern) dialect adaptation that preserves Central Thai performance. To address reproducibility challenges in Thai ASR, we release the Typhoon ASR Benchmark, a gold-standard human-labeled datasets with transcriptions following established Thai linguistic conventions, providing standardized evaluation protocols for the research community.