Тайфун ASR в реальном времени: FastConformer-Transducer для тайской автоматической распознавания речи
Typhoon ASR Real-time: FastConformer-Transducer for Thai Automatic Speech Recognition
January 19, 2026
Авторы: Warit Sirichotedumrong, Adisai Na-Thalang, Potsawee Manakul, Pittawat Taveekitworachai, Sittipong Sripaisarnmongkol, Kunat Pipatanakul
cs.AI
Аннотация
Крупные модели типа «кодировщик-декодер», такие как Whisper, демонстрируют высокую точность оффлайн-транскрипции, но остаются непрактичными для потоковых приложений из-за высокой задержки. Тем не менее, благодаря доступности предобученных чекпоинтов, открытая экосистема распознавания тайской речи (ASR) по-прежнему доминируется этими оффлайн-архитектурами, что создает серьезный пробел в эффективных потоковых решениях. Мы представляем Typhoon ASR Real-time — 115-миллионную модель FastConformer-Transducer для распознавания тайской речи с низкой задержкой. Мы показываем, что строгая текстуальная нормализация может быть столь же эффективной, как и масштабирование модели: наша компактная модель достигает 45-кратного снижения вычислительных затрат по сравнению с Whisper Large-v3 при сохранении сопоставимой точности. Наш конвейер нормализации разрешает системные неоднозначности в тайской транскрипции — включая контекстно-зависимую вербализацию чисел и маркеры повтора (май ямок) — создавая согласованные целевые данные для обучения. Дополнительно мы представляем двухэтапный подход обучения с постепенным усложнением (curriculum learning) для адаптации к исанскому (северо-восточному) диалекту, который сохраняет производительность на центрально-тайском языке. Для решения проблемы воспроизводимости в тайском ASR мы выпускаем Typhoon ASR Benchmark — эталонные датасеты с разметкой, выполненной человеком, и транскрипциями, следующими устоявшимся лингвистическим конвенциям тайского языка, предоставляя научному сообществу стандартизированные протоколы оценки.
English
Large encoder-decoder models like Whisper achieve strong offline transcription but remain impractical for streaming applications due to high latency. However, due to the accessibility of pre-trained checkpoints, the open Thai ASR landscape remains dominated by these offline architectures, leaving a critical gap in efficient streaming solutions. We present Typhoon ASR Real-time, a 115M-parameter FastConformer-Transducer model for low-latency Thai speech recognition. We demonstrate that rigorous text normalization can match the impact of model scaling: our compact model achieves a 45x reduction in computational cost compared to Whisper Large-v3 while delivering comparable accuracy. Our normalization pipeline resolves systemic ambiguities in Thai transcription --including context-dependent number verbalization and repetition markers (mai yamok) --creating consistent training targets. We further introduce a two-stage curriculum learning approach for Isan (north-eastern) dialect adaptation that preserves Central Thai performance. To address reproducibility challenges in Thai ASR, we release the Typhoon ASR Benchmark, a gold-standard human-labeled datasets with transcriptions following established Thai linguistic conventions, providing standardized evaluation protocols for the research community.