Tufão ASR em Tempo Real: FastConformer-Transducer para Reconhecimento Automático de Fala em Tailandês

Resumo

Modelos de codificador-decodificador de grande porte, como o Whisper, alcançam uma transcrição offline robusta, mas permanecem impraticáveis para aplicações em tempo real devido à alta latência. No entanto, devido à acessibilidade dos checkpoints pré-treinados, o cenário aberto do ASR para tailandês continua dominado por essas arquiteturas offline, deixando uma lacuna crítica em soluções de streaming eficientes. Apresentamos o Typhoon ASR Real-time, um modelo FastConformer-Transducer com 115 milhões de parâmetros para reconhecimento de fala tailandesa de baixa latência. Demonstramos que uma rigorosa normalização de texto pode igualar o impacto do escalonamento do modelo: nosso modelo compacto alcança uma redução de 45x no custo computacional em comparação com o Whisper Large-v3, fornecendo uma precisão comparável. Nossa pipeline de normalização resolve ambiguidades sistêmicas na transcrição tailandesa — incluindo a verbalização de números dependente de contexto e marcadores de repetição (mai yamok) — criando alvos de treinamento consistentes. Introduzimos ainda uma abordagem de aprendizado curricular em dois estágios para a adaptação ao dialeto Isan (nordeste) que preserva o desempenho no tailandês central. Para enfrentar os desafios de reprodutibilidade no ASR tailandês, lançamos o Typhoon ASR Benchmark, um conjunto de dados anotado manualmente considerado padrão-ouro, com transcrições que seguem as convenções linguísticas tailandesas estabelecidas, fornecendo protocolos de avaliação padronizados para a comunidade de pesquisa.

English

Large encoder-decoder models like Whisper achieve strong offline transcription but remain impractical for streaming applications due to high latency. However, due to the accessibility of pre-trained checkpoints, the open Thai ASR landscape remains dominated by these offline architectures, leaving a critical gap in efficient streaming solutions. We present Typhoon ASR Real-time, a 115M-parameter FastConformer-Transducer model for low-latency Thai speech recognition. We demonstrate that rigorous text normalization can match the impact of model scaling: our compact model achieves a 45x reduction in computational cost compared to Whisper Large-v3 while delivering comparable accuracy. Our normalization pipeline resolves systemic ambiguities in Thai transcription --including context-dependent number verbalization and repetition markers (mai yamok) --creating consistent training targets. We further introduce a two-stage curriculum learning approach for Isan (north-eastern) dialect adaptation that preserves Central Thai performance. To address reproducibility challenges in Thai ASR, we release the Typhoon ASR Benchmark, a gold-standard human-labeled datasets with transcriptions following established Thai linguistic conventions, providing standardized evaluation protocols for the research community.