태풍 ASR 실시간: 태국어 음성 인식을 위한 FastConformer-Transducer
Typhoon ASR Real-time: FastConformer-Transducer for Thai Automatic Speech Recognition
January 19, 2026
저자: Warit Sirichotedumrong, Adisai Na-Thalang, Potsawee Manakul, Pittawat Taveekitworachai, Sittipong Sripaisarnmongkol, Kunat Pipatanakul
cs.AI
초록
Whisper와 같은 대규모 인코더-디코더 모델은 강력한 오프라인 음성 인식 성능을 달성하지만 높은 지연 시간으로 인해 스트리밍 애플리케이션에는 비실용적입니다. 그러나 사전 훈련된 체크포인트의 접근성으로 인해 태국어 ASR 분야는 이러한 오프라인 아키텍처가 주류를 이루고 있어, 효율적인 스트리밍 솔루션에 중요한 공백이 존재합니다. 본 논문에서는 저지연 태국어 음성 인식을 위한 1억 1,500만 개 파라미터 규모의 FastConformer-Transducer 모델인 Typhoon ASR Real-time을 제안합니다. 우리는 엄격한 텍스트 정규화가 모델 규모 확장만큼의 효과를 낼 수 있음을 입증합니다: 우리의 경량 모델은 Whisper Large-v3 대비 계산 비용을 45배 절감하면서도 유사한 정확도를 제공합니다. 본 연구의 정규화 파이프라인은 상황에 따른 숫자 읽기 및 반복 표시어(ไม้ยมก)를 포함한 태국어 전사 체계의 모호성을 해소하여 일관된 훈련 목표를 생성합니다. 또한 중부 태국어 성능을 유지하면서 이산(동북부) 방언 적응을 위한 2단계 커리큘럼 학습 접근법을 도입합니다. 태국어 ASR의 재현성 과제를 해결하기 위해, 우리는 확립된 태국어 언어 규칙을 따르는 전사로 구성된 정확한 인간 레이블 데이터셋인 Typhoon ASR Benchmark와 표준화된 평가 프로토콜을 연구 커뮤니티에 공개합니다.
English
Large encoder-decoder models like Whisper achieve strong offline transcription but remain impractical for streaming applications due to high latency. However, due to the accessibility of pre-trained checkpoints, the open Thai ASR landscape remains dominated by these offline architectures, leaving a critical gap in efficient streaming solutions. We present Typhoon ASR Real-time, a 115M-parameter FastConformer-Transducer model for low-latency Thai speech recognition. We demonstrate that rigorous text normalization can match the impact of model scaling: our compact model achieves a 45x reduction in computational cost compared to Whisper Large-v3 while delivering comparable accuracy. Our normalization pipeline resolves systemic ambiguities in Thai transcription --including context-dependent number verbalization and repetition markers (mai yamok) --creating consistent training targets. We further introduce a two-stage curriculum learning approach for Isan (north-eastern) dialect adaptation that preserves Central Thai performance. To address reproducibility challenges in Thai ASR, we release the Typhoon ASR Benchmark, a gold-standard human-labeled datasets with transcriptions following established Thai linguistic conventions, providing standardized evaluation protocols for the research community.