ChatPaper.aiChatPaper

Tifón ASR en Tiempo Real: FastConformer-Transducer para Reconocimiento Automático del Habla en Tailandés

Typhoon ASR Real-time: FastConformer-Transducer for Thai Automatic Speech Recognition

January 19, 2026
Autores: Warit Sirichotedumrong, Adisai Na-Thalang, Potsawee Manakul, Pittawat Taveekitworachai, Sittipong Sripaisarnmongkol, Kunat Pipatanakul
cs.AI

Resumen

Los modelos grandes de codificador-decodificador como Whisper logran una transcripción offline sólida, pero siguen siendo impracticables para aplicaciones en streaming debido a su alta latencia. Sin embargo, debido a la accesibilidad de los checkpoints preentrenados, el panorama de la ASR tailandesa abierta sigue dominado por estas arquitecturas offline, dejando un vacío crítico en soluciones de streaming eficientes. Presentamos Typhoon ASR Real-time, un modelo Transductor FastConformer de 115 millones de parámetros para el reconocimiento de voz tailandesa de baja latencia. Demostramos que una normalización de texto rigurosa puede igualar el impacto del escalado de modelos: nuestro modelo compacto logra una reducción de 45x en el coste computacional en comparación con Whisper Large-v3, ofreciendo una precisión comparable. Nuestro pipeline de normalización resuelve ambigüedades sistémicas en la transcripción tailandesa —incluyendo la verbalización de números dependiente del contexto y los marcadores de repetición (mai yamok)— creando objetivos de entrenamiento consistentes. Además, presentamos un enfoque de aprendizaje curricular en dos etapas para la adaptación al dialecto Isan (noreste) que preserva el rendimiento en tailandés central. Para abordar los desafíos de reproducibilidad en la ASR tailandesa, publicamos el Benchmark Typhoon ASR, un conjunto de datos de referencia etiquetado manualmente con transcripciones que siguen las convenciones lingüísticas tailandesas establecidas, proporcionando protocolos de evaluación estandarizados para la comunidad investigadora.
English
Large encoder-decoder models like Whisper achieve strong offline transcription but remain impractical for streaming applications due to high latency. However, due to the accessibility of pre-trained checkpoints, the open Thai ASR landscape remains dominated by these offline architectures, leaving a critical gap in efficient streaming solutions. We present Typhoon ASR Real-time, a 115M-parameter FastConformer-Transducer model for low-latency Thai speech recognition. We demonstrate that rigorous text normalization can match the impact of model scaling: our compact model achieves a 45x reduction in computational cost compared to Whisper Large-v3 while delivering comparable accuracy. Our normalization pipeline resolves systemic ambiguities in Thai transcription --including context-dependent number verbalization and repetition markers (mai yamok) --creating consistent training targets. We further introduce a two-stage curriculum learning approach for Isan (north-eastern) dialect adaptation that preserves Central Thai performance. To address reproducibility challenges in Thai ASR, we release the Typhoon ASR Benchmark, a gold-standard human-labeled datasets with transcriptions following established Thai linguistic conventions, providing standardized evaluation protocols for the research community.
PDF111January 23, 2026