ChatPaper.aiChatPaper

Тайская семантическая детекция конца реплики для голосовых агентов в реальном времени

Thai Semantic End-of-Turn Detection for Real-Time Voice Agents

October 5, 2025
Авторы: Thanapol Popit, Natthapath Rungseesiripak, Monthol Charattrakool, Saksorn Ruangtanusak
cs.AI

Аннотация

Для плавного голосового взаимодействия требуется надежное и низкозадержочное определение момента завершения речи пользователя. Традиционные методы определения конца высказывания на основе тишины добавляют сотни миллисекунд задержки и не справляются с паузами или языковыми особенностями. Мы представляем, насколько нам известно, первое систематическое исследование определения конца реплики (EOT) для тайского текста в режиме реального времени. Мы сравниваем подходы с нулевым и малым количеством примеров (zero-shot и few-shot) для компактных языковых моделей (LLM) с тонкой настройкой легковесных трансформеров. Используя транскрибированные субтитры из корпуса YODAS и лингвистические маркеры, характерные для тайского языка (например, частицы в конце предложения), мы формулируем EOT как бинарное решение на границах токенов. Мы демонстрируем явный компромисс между точностью и задержкой и предлагаем готовый к публикации план реализации. Эта работа устанавливает базовый уровень для тайского языка и показывает, что небольшие, тонко настроенные модели могут обеспечивать почти мгновенные решения EOT, подходящие для устройств с ограниченными ресурсами.
English
Fluid voice-to-voice interaction requires reliable and low-latency detection of when a user has finished speaking. Traditional audio-silence end-pointers add hundreds of milliseconds of delay and fail under hesitations or language-specific phenomena. We present, to our knowledge, the first systematic study of Thai text-only end-of-turn (EOT) detection for real-time agents. We compare zero-shot and few-shot prompting of compact LLMs to supervised fine-tuning of lightweight transformers. Using transcribed subtitles from the YODAS corpus and Thai-specific linguistic cues (e.g., sentence-final particles), we formulate EOT as a binary decision over token boundaries. We report a clear accuracy-latency tradeoff and provide a public-ready implementation plan. This work establishes a Thai baseline and demonstrates that small, fine-tuned models can deliver near-instant EOT decisions suitable for on-device agents.
PDF32October 7, 2025