Typhoon ASR in Tempo Reale: FastConformer-Transducer per il Riconoscimento Vocale Automatico Thai

Abstract

Modelli encoder-decoder di grandi dimensioni come Whisper ottengono un'ottima trascrizione offline, ma rimangono impraticabili per applicazioni in streaming a causa dell'elevata latenza. Tuttavia, grazie all'accessibilità dei checkpoint pre-addestrati, il panorama thailandese dell'ASR open-source rimane dominato da queste architetture offline, lasciando una lacuna critica nelle soluzioni di streaming efficienti. Presentiamo Typhoon ASR Real-time, un modello FastConformer-Transducer da 115 milioni di parametri per il riconoscimento vocale thailandese a bassa latenza. Dimostriamo che una rigorosa normalizzazione del testo può eguagliare l'impatto del ridimensionamento del modello: il nostro modello compatto ottiene una riduzione di 45 volte del costo computazionale rispetto a Whisper Large-v3, fornendo al contempo un'accuratezza comparabile. La nostra pipeline di normalizzazione risolve le ambiguità sistemiche nella trascrizione thailandese – inclusa la verbalizzazione di numeri dipendente dal contesto e i marcatori di ripetizione (mai yamok) – creando target di addestramento coerenti. Introduciamo inoltre un approccio di apprendimento per curriculum a due stadi per l'adattamento al dialetto Isan (nord-orientale) che preserva le prestazioni nel thailandese centrale. Per affrontare le sfide della riproducibilità nell'ASR thailandese, rilasciamo il Typhoon ASR Benchmark, un dataset di riferimento etichettato manualmente con trascrizioni che seguono le convenzioni linguistiche thailandesi consolidate, fornendo protocolli di valutazione standardizzati per la comunità di ricerca.

English

Large encoder-decoder models like Whisper achieve strong offline transcription but remain impractical for streaming applications due to high latency. However, due to the accessibility of pre-trained checkpoints, the open Thai ASR landscape remains dominated by these offline architectures, leaving a critical gap in efficient streaming solutions. We present Typhoon ASR Real-time, a 115M-parameter FastConformer-Transducer model for low-latency Thai speech recognition. We demonstrate that rigorous text normalization can match the impact of model scaling: our compact model achieves a 45x reduction in computational cost compared to Whisper Large-v3 while delivering comparable accuracy. Our normalization pipeline resolves systemic ambiguities in Thai transcription --including context-dependent number verbalization and repetition markers (mai yamok) --creating consistent training targets. We further introduce a two-stage curriculum learning approach for Isan (north-eastern) dialect adaptation that preserves Central Thai performance. To address reproducibility challenges in Thai ASR, we release the Typhoon ASR Benchmark, a gold-standard human-labeled datasets with transcriptions following established Thai linguistic conventions, providing standardized evaluation protocols for the research community.

Typhoon ASR in Tempo Reale: FastConformer-Transducer per il Riconoscimento Vocale Automatico Thai

Typhoon ASR Real-time: FastConformer-Transducer for Thai Automatic Speech Recognition

Abstract

Support