Thailändische semantische Erkennung von Gesprächsenden für Echtzeit-Sprachassistenten

papers.abstract

Flüssige Sprach-zu-Sprach-Interaktion erfordert eine zuverlässige und verzögerungsarme Erkennung des Zeitpunkts, an dem ein Benutzer das Sprechen beendet hat. Traditionelle Audio-Stille-Endpunktdetektoren fügen Hunderte von Millisekunden Verzögerung hinzu und versagen bei Zögern oder sprachspezifischen Phänomenen. Wir präsentieren, unseres Wissens nach, die erste systematische Studie zur thailändischen textbasierten Erkennung von Sprechwechselenden (End-of-Turn, EOT) für Echtzeit-Agenten. Wir vergleichen Zero-Shot- und Few-Shot-Prompting von kompakten LLMs (Large Language Models) mit dem überwachten Feinabstimmen von leichten Transformermodellen. Unter Verwendung von transkribierten Untertiteln aus dem YODAS-Korpus und thailändisch-spezifischen linguistischen Hinweisen (z. B. satzfinale Partikel) formulieren wir EOT als binäre Entscheidung über Token-Grenzen hinweg. Wir berichten über einen klaren Kompromiss zwischen Genauigkeit und Latenz und stellen einen öffentlichkeitsreifen Implementierungsplan bereit. Diese Arbeit etabliert eine thailändische Baseline und zeigt, dass kleine, feinabgestimmte Modelle nahezu sofortige EOT-Entscheidungen liefern können, die sich für On-Device-Agenten eignen.

English

Fluid voice-to-voice interaction requires reliable and low-latency detection of when a user has finished speaking. Traditional audio-silence end-pointers add hundreds of milliseconds of delay and fail under hesitations or language-specific phenomena. We present, to our knowledge, the first systematic study of Thai text-only end-of-turn (EOT) detection for real-time agents. We compare zero-shot and few-shot prompting of compact LLMs to supervised fine-tuning of lightweight transformers. Using transcribed subtitles from the YODAS corpus and Thai-specific linguistic cues (e.g., sentence-final particles), we formulate EOT as a binary decision over token boundaries. We report a clear accuracy-latency tradeoff and provide a public-ready implementation plan. This work establishes a Thai baseline and demonstrates that small, fine-tuned models can deliver near-instant EOT decisions suitable for on-device agents.

Thailändische semantische Erkennung von Gesprächsenden für Echtzeit-Sprachassistenten

Thai Semantic End-of-Turn Detection for Real-Time Voice Agents

papers.abstract

Support