Detección Semántica del Fin de Turno en Tailandés para Agentes de Voz en Tiempo Real

Resumen

La interacción fluida de voz a voz requiere una detección confiable y de baja latencia de cuándo un usuario ha terminado de hablar. Los detectores tradicionales de fin de turno basados en silencio de audio añaden cientos de milisegundos de retraso y fallan ante vacilaciones o fenómenos específicos del idioma. Presentamos, hasta donde sabemos, el primer estudio sistemático de detección de fin de turno (EOT, por sus siglas en inglés) basado únicamente en texto en tailandés para agentes en tiempo real. Comparamos el enfoque de "zero-shot" y "few-shot" en modelos de lenguaje compactos (LLMs) con el ajuste fino supervisado de transformadores ligeros. Utilizando subtítulos transcritos del corpus YODAS y señales lingüísticas específicas del tailandés (por ejemplo, partículas finales de oración), formulamos la detección de EOT como una decisión binaria sobre los límites de los tokens. Reportamos una clara compensación entre precisión y latencia y proporcionamos un plan de implementación listo para uso público. Este trabajo establece una línea base para el tailandés y demuestra que modelos pequeños y ajustados pueden ofrecer decisiones de EOT casi instantáneas, adecuadas para agentes en dispositivos locales.

English

Fluid voice-to-voice interaction requires reliable and low-latency detection of when a user has finished speaking. Traditional audio-silence end-pointers add hundreds of milliseconds of delay and fail under hesitations or language-specific phenomena. We present, to our knowledge, the first systematic study of Thai text-only end-of-turn (EOT) detection for real-time agents. We compare zero-shot and few-shot prompting of compact LLMs to supervised fine-tuning of lightweight transformers. Using transcribed subtitles from the YODAS corpus and Thai-specific linguistic cues (e.g., sentence-final particles), we formulate EOT as a binary decision over token boundaries. We report a clear accuracy-latency tradeoff and provide a public-ready implementation plan. This work establishes a Thai baseline and demonstrates that small, fine-tuned models can deliver near-instant EOT decisions suitable for on-device agents.

Detección Semántica del Fin de Turno en Tailandés para Agentes de Voz en Tiempo Real

Thai Semantic End-of-Turn Detection for Real-Time Voice Agents

Resumen

Support