Detecção Semântica de Fim de Turno em Tailandês para Agentes de Voz em Tempo Real
Thai Semantic End-of-Turn Detection for Real-Time Voice Agents
October 5, 2025
Autores: Thanapol Popit, Natthapath Rungseesiripak, Monthol Charattrakool, Saksorn Ruangtanusak
cs.AI
Resumo
A interação fluida de voz para voz requer uma detecção confiável e de baixa latência de quando um usuário terminou de falar. Os tradicionais detectores de fim de fala baseados em silêncio de áudio adicionam centenas de milissegundos de atraso e falham em casos de hesitações ou fenômenos específicos da língua. Apresentamos, até onde sabemos, o primeiro estudo sistemático de detecção de fim de turno (EOT, do inglês *End-of-Turn*) baseada apenas em texto em tailandês para agentes em tempo real. Comparamos o *prompting* de modelos de linguagem compactos (LLMs) em cenários *zero-shot* e *few-shot* com o ajuste fino supervisionado de transformadores leves. Utilizando legendas transcritas do corpus YODAS e pistas linguísticas específicas do tailandês (por exemplo, partículas finais de frase), formulamos o EOT como uma decisão binária sobre os limites dos *tokens*. Relatamos uma clara relação de compromisso entre precisão e latência e fornecemos um plano de implementação pronto para uso público. Este trabalho estabelece uma linha de base para o tailandês e demonstra que modelos pequenos e ajustados podem fornecer decisões de EOT quase instantâneas, adequadas para agentes em dispositivos locais.
English
Fluid voice-to-voice interaction requires reliable and low-latency detection
of when a user has finished speaking. Traditional audio-silence end-pointers
add hundreds of milliseconds of delay and fail under hesitations or
language-specific phenomena. We present, to our knowledge, the first systematic
study of Thai text-only end-of-turn (EOT) detection for real-time agents. We
compare zero-shot and few-shot prompting of compact LLMs to supervised
fine-tuning of lightweight transformers. Using transcribed subtitles from the
YODAS corpus and Thai-specific linguistic cues (e.g., sentence-final
particles), we formulate EOT as a binary decision over token boundaries. We
report a clear accuracy-latency tradeoff and provide a public-ready
implementation plan. This work establishes a Thai baseline and demonstrates
that small, fine-tuned models can deliver near-instant EOT decisions suitable
for on-device agents.