ChatPaper.aiChatPaper

Rilevamento semantico della fine del turno in thailandese per agenti vocali in tempo reale

Thai Semantic End-of-Turn Detection for Real-Time Voice Agents

October 5, 2025
Autori: Thanapol Popit, Natthapath Rungseesiripak, Monthol Charattrakool, Saksorn Ruangtanusak
cs.AI

Abstract

Un'interazione vocale fluida richiede un rilevamento affidabile e a bassa latenza del momento in cui un utente ha terminato di parlare. I tradizionali rilevatori di fine turno basati sul silenzio audio aggiungono centinaia di millisecondi di ritardo e falliscono in caso di esitazioni o fenomeni specifici della lingua. Presentiamo, a nostra conoscenza, il primo studio sistematico sul rilevamento della fine del turno (EOT) basato esclusivamente sul testo thailandese per agenti in tempo reale. Confrontiamo il prompting zero-shot e few-shot di modelli linguistici compatti con il fine-tuning supervisionato di trasformatori leggeri. Utilizzando sottotitoli trascritti dal corpus YODAS e segnali linguistici specifici del thailandese (ad esempio, particelle finali di frase), formuliamo l'EOT come una decisione binaria sui confini dei token. Riferiamo un chiaro compromesso tra accuratezza e latenza e forniamo un piano di implementazione pronto per il pubblico. Questo lavoro stabilisce una baseline per il thailandese e dimostra che piccoli modelli fine-tuned possono fornire decisioni EOT quasi istantanee, adatte per agenti su dispositivo.
English
Fluid voice-to-voice interaction requires reliable and low-latency detection of when a user has finished speaking. Traditional audio-silence end-pointers add hundreds of milliseconds of delay and fail under hesitations or language-specific phenomena. We present, to our knowledge, the first systematic study of Thai text-only end-of-turn (EOT) detection for real-time agents. We compare zero-shot and few-shot prompting of compact LLMs to supervised fine-tuning of lightweight transformers. Using transcribed subtitles from the YODAS corpus and Thai-specific linguistic cues (e.g., sentence-final particles), we formulate EOT as a binary decision over token boundaries. We report a clear accuracy-latency tradeoff and provide a public-ready implementation plan. This work establishes a Thai baseline and demonstrates that small, fine-tuned models can deliver near-instant EOT decisions suitable for on-device agents.
PDF32October 7, 2025