Detección Semántica del Fin de Turno en Tailandés para Agentes de Voz en Tiempo Real
Thai Semantic End-of-Turn Detection for Real-Time Voice Agents
October 5, 2025
Autores: Thanapol Popit, Natthapath Rungseesiripak, Monthol Charattrakool, Saksorn Ruangtanusak
cs.AI
Resumen
La interacción fluida de voz a voz requiere una detección confiable y de baja latencia de cuándo un usuario ha terminado de hablar. Los detectores tradicionales de fin de turno basados en silencio de audio añaden cientos de milisegundos de retraso y fallan ante vacilaciones o fenómenos específicos del idioma. Presentamos, hasta donde sabemos, el primer estudio sistemático de detección de fin de turno (EOT, por sus siglas en inglés) basado únicamente en texto en tailandés para agentes en tiempo real. Comparamos el enfoque de "zero-shot" y "few-shot" en modelos de lenguaje compactos (LLMs) con el ajuste fino supervisado de transformadores ligeros. Utilizando subtítulos transcritos del corpus YODAS y señales lingüísticas específicas del tailandés (por ejemplo, partículas finales de oración), formulamos la detección de EOT como una decisión binaria sobre los límites de los tokens. Reportamos una clara compensación entre precisión y latencia y proporcionamos un plan de implementación listo para uso público. Este trabajo establece una línea base para el tailandés y demuestra que modelos pequeños y ajustados pueden ofrecer decisiones de EOT casi instantáneas, adecuadas para agentes en dispositivos locales.
English
Fluid voice-to-voice interaction requires reliable and low-latency detection
of when a user has finished speaking. Traditional audio-silence end-pointers
add hundreds of milliseconds of delay and fail under hesitations or
language-specific phenomena. We present, to our knowledge, the first systematic
study of Thai text-only end-of-turn (EOT) detection for real-time agents. We
compare zero-shot and few-shot prompting of compact LLMs to supervised
fine-tuning of lightweight transformers. Using transcribed subtitles from the
YODAS corpus and Thai-specific linguistic cues (e.g., sentence-final
particles), we formulate EOT as a binary decision over token boundaries. We
report a clear accuracy-latency tradeoff and provide a public-ready
implementation plan. This work establishes a Thai baseline and demonstrates
that small, fine-tuned models can deliver near-instant EOT decisions suitable
for on-device agents.