ChatPaper.aiChatPaper

Détection sémantique de fin de tour en thaï pour les agents vocaux en temps réel

Thai Semantic End-of-Turn Detection for Real-Time Voice Agents

October 5, 2025
papers.authors: Thanapol Popit, Natthapath Rungseesiripak, Monthol Charattrakool, Saksorn Ruangtanusak
cs.AI

papers.abstract

Une interaction fluide de voix à voix nécessite une détection fiable et à faible latence du moment où un utilisateur a terminé de parler. Les détecteurs de fin de parole traditionnels basés sur le silence audio ajoutent des centaines de millisecondes de délai et échouent face aux hésitations ou aux phénomènes spécifiques à la langue. Nous présentons, à notre connaissance, la première étude systématique de la détection de fin de tour (EOT) en thaï basée uniquement sur le texte pour des agents en temps réel. Nous comparons l'approche zero-shot et few-shot avec des modèles de langage compacts (LLMs) au fine-tuning supervisé de transformateurs légers. En utilisant des sous-titres transcrits du corpus YODAS et des indices linguistiques spécifiques au thaï (par exemple, les particules de fin de phrase), nous formulons l'EOT comme une décision binaire sur les limites des tokens. Nous rapportons un compromis clair entre précision et latence et fournissons un plan d'implémentation prêt pour le public. Ce travail établit une référence pour le thaï et démontre que des petits modèles finement ajustés peuvent fournir des décisions EOT quasi instantanées, adaptées aux agents embarqués.
English
Fluid voice-to-voice interaction requires reliable and low-latency detection of when a user has finished speaking. Traditional audio-silence end-pointers add hundreds of milliseconds of delay and fail under hesitations or language-specific phenomena. We present, to our knowledge, the first systematic study of Thai text-only end-of-turn (EOT) detection for real-time agents. We compare zero-shot and few-shot prompting of compact LLMs to supervised fine-tuning of lightweight transformers. Using transcribed subtitles from the YODAS corpus and Thai-specific linguistic cues (e.g., sentence-final particles), we formulate EOT as a binary decision over token boundaries. We report a clear accuracy-latency tradeoff and provide a public-ready implementation plan. This work establishes a Thai baseline and demonstrates that small, fine-tuned models can deliver near-instant EOT decisions suitable for on-device agents.
PDF32October 7, 2025