Thaise semantische eind-van-beurt-detectie voor real-time stemassistenten
Thai Semantic End-of-Turn Detection for Real-Time Voice Agents
October 5, 2025
Auteurs: Thanapol Popit, Natthapath Rungseesiripak, Monthol Charattrakool, Saksorn Ruangtanusak
cs.AI
Samenvatting
Vloeiende spraak-naar-spraak-interactie vereist een betrouwbare en lage-latentie detectie van wanneer een gebruiker is uitgepraat. Traditionele audio-stilte-eindpuntaanduiders voegen honderden milliseconden vertraging toe en falen bij aarzelingen of taal-specifieke fenomenen. Wij presenteren, voor zover wij weten, de eerste systematische studie van Thaise tekst-only eind-van-beurt (EOT) detectie voor real-time agents. Wij vergelijken zero-shot en few-shot prompting van compacte LLM's met supervised fine-tuning van lichtgewicht transformers. Met behulp van getranscribeerde ondertitels uit het YODAS-corpus en Thaise-specifieke linguïstische signalen (bijv., zin-eindpartikels), formuleren wij EOT als een binaire beslissing over token-grenzen. Wij rapporteren een duidelijke nauwkeurigheid-latentie afweging en bieden een implementatieplan dat klaar is voor publiek gebruik. Dit werk legt een Thaise basislijn vast en toont aan dat kleine, fijn afgestemde modellen bijna directe EOT-beslissingen kunnen leveren die geschikt zijn voor on-device agents.
English
Fluid voice-to-voice interaction requires reliable and low-latency detection
of when a user has finished speaking. Traditional audio-silence end-pointers
add hundreds of milliseconds of delay and fail under hesitations or
language-specific phenomena. We present, to our knowledge, the first systematic
study of Thai text-only end-of-turn (EOT) detection for real-time agents. We
compare zero-shot and few-shot prompting of compact LLMs to supervised
fine-tuning of lightweight transformers. Using transcribed subtitles from the
YODAS corpus and Thai-specific linguistic cues (e.g., sentence-final
particles), we formulate EOT as a binary decision over token boundaries. We
report a clear accuracy-latency tradeoff and provide a public-ready
implementation plan. This work establishes a Thai baseline and demonstrates
that small, fine-tuned models can deliver near-instant EOT decisions suitable
for on-device agents.