Thailändische semantische Erkennung von Gesprächsenden für Echtzeit-Sprachassistenten
Thai Semantic End-of-Turn Detection for Real-Time Voice Agents
October 5, 2025
papers.authors: Thanapol Popit, Natthapath Rungseesiripak, Monthol Charattrakool, Saksorn Ruangtanusak
cs.AI
papers.abstract
Flüssige Sprach-zu-Sprach-Interaktion erfordert eine zuverlässige und verzögerungsarme Erkennung des Zeitpunkts, an dem ein Benutzer das Sprechen beendet hat. Traditionelle Audio-Stille-Endpunktdetektoren fügen Hunderte von Millisekunden Verzögerung hinzu und versagen bei Zögern oder sprachspezifischen Phänomenen. Wir präsentieren, unseres Wissens nach, die erste systematische Studie zur thailändischen textbasierten Erkennung von Sprechwechselenden (End-of-Turn, EOT) für Echtzeit-Agenten. Wir vergleichen Zero-Shot- und Few-Shot-Prompting von kompakten LLMs (Large Language Models) mit dem überwachten Feinabstimmen von leichten Transformermodellen. Unter Verwendung von transkribierten Untertiteln aus dem YODAS-Korpus und thailändisch-spezifischen linguistischen Hinweisen (z. B. satzfinale Partikel) formulieren wir EOT als binäre Entscheidung über Token-Grenzen hinweg. Wir berichten über einen klaren Kompromiss zwischen Genauigkeit und Latenz und stellen einen öffentlichkeitsreifen Implementierungsplan bereit. Diese Arbeit etabliert eine thailändische Baseline und zeigt, dass kleine, feinabgestimmte Modelle nahezu sofortige EOT-Entscheidungen liefern können, die sich für On-Device-Agenten eignen.
English
Fluid voice-to-voice interaction requires reliable and low-latency detection
of when a user has finished speaking. Traditional audio-silence end-pointers
add hundreds of milliseconds of delay and fail under hesitations or
language-specific phenomena. We present, to our knowledge, the first systematic
study of Thai text-only end-of-turn (EOT) detection for real-time agents. We
compare zero-shot and few-shot prompting of compact LLMs to supervised
fine-tuning of lightweight transformers. Using transcribed subtitles from the
YODAS corpus and Thai-specific linguistic cues (e.g., sentence-final
particles), we formulate EOT as a binary decision over token boundaries. We
report a clear accuracy-latency tradeoff and provide a public-ready
implementation plan. This work establishes a Thai baseline and demonstrates
that small, fine-tuned models can deliver near-instant EOT decisions suitable
for on-device agents.