Tyfoon ASR Real-time: FastConformer-Transducer voor Thaise Automatische Spraakherkenning

Samenvatting

Grote encoder-decoder-modellen zoals Whisper leveren sterke offline transcriptieprestaties, maar blijven onpraktisch voor streamingtoepassingen vanwege de hoge latentie. Vanwege de beschikbaarheid van vooraf getrainde checkpoints wordt het open Thai ASR-landschap echter nog steeds gedomineerd door deze offline architecturen, wat een kritieke kloof laat in efficiënte streamingoplossingen. Wij presenteren Typhoon ASR Real-time, een FastConformer-Transducer-model met 115M parameters voor spraakherkenning van het Thai met lage latentie. Wij tonen aan dat rigoureuze tekstnormalisatie een even grote impact kan hebben als modelschaling: ons compacte model bereikt een 45-voudige vermindering van de rekenkosten in vergelijking met Whisper Large-v3, terwijl het vergelijkbare nauwkeurigheid levert. Onze normalisatiepipeline lost systemische ambiguïteiten in Thaise transcriptie op – waaronder contextafhankelijke verbalisatie van getallen en herhalingsmarkeringen (mai yamok) – en creëert consistente trainingsdoelen. Verder introduceren we een tweefasen curriculumlearning-benadering voor adaptatie naar het Isan-dialect (noordoostelijk) die de prestaties voor het Centraal Thai behoudt. Om de reproduceerbaarheidsuitdagingen in Thai ASR aan te pakken, geven wij de Typhoon ASR Benchmark vrij, een gouden standaard van door mensen gelabelde datasets met transcripties die de gevestigde Thaise linguïstische conventies volgen, en voorzien zo de onderzoeksgemeenschap van gestandaardiseerde evaluatieprotocollen.

English

Large encoder-decoder models like Whisper achieve strong offline transcription but remain impractical for streaming applications due to high latency. However, due to the accessibility of pre-trained checkpoints, the open Thai ASR landscape remains dominated by these offline architectures, leaving a critical gap in efficient streaming solutions. We present Typhoon ASR Real-time, a 115M-parameter FastConformer-Transducer model for low-latency Thai speech recognition. We demonstrate that rigorous text normalization can match the impact of model scaling: our compact model achieves a 45x reduction in computational cost compared to Whisper Large-v3 while delivering comparable accuracy. Our normalization pipeline resolves systemic ambiguities in Thai transcription --including context-dependent number verbalization and repetition markers (mai yamok) --creating consistent training targets. We further introduce a two-stage curriculum learning approach for Isan (north-eastern) dialect adaptation that preserves Central Thai performance. To address reproducibility challenges in Thai ASR, we release the Typhoon ASR Benchmark, a gold-standard human-labeled datasets with transcriptions following established Thai linguistic conventions, providing standardized evaluation protocols for the research community.

Tyfoon ASR Real-time: FastConformer-Transducer voor Thaise Automatische Spraakherkenning

Typhoon ASR Real-time: FastConformer-Transducer for Thai Automatic Speech Recognition

Samenvatting

Support