Тайская семантическая детекция конца реплики для голосовых агентов в реальном времени
Thai Semantic End-of-Turn Detection for Real-Time Voice Agents
October 5, 2025
Авторы: Thanapol Popit, Natthapath Rungseesiripak, Monthol Charattrakool, Saksorn Ruangtanusak
cs.AI
Аннотация
Для плавного голосового взаимодействия требуется надежное и низкозадержочное определение момента завершения речи пользователя. Традиционные методы определения конца высказывания на основе тишины добавляют сотни миллисекунд задержки и не справляются с паузами или языковыми особенностями. Мы представляем, насколько нам известно, первое систематическое исследование определения конца реплики (EOT) для тайского текста в режиме реального времени. Мы сравниваем подходы с нулевым и малым количеством примеров (zero-shot и few-shot) для компактных языковых моделей (LLM) с тонкой настройкой легковесных трансформеров. Используя транскрибированные субтитры из корпуса YODAS и лингвистические маркеры, характерные для тайского языка (например, частицы в конце предложения), мы формулируем EOT как бинарное решение на границах токенов. Мы демонстрируем явный компромисс между точностью и задержкой и предлагаем готовый к публикации план реализации. Эта работа устанавливает базовый уровень для тайского языка и показывает, что небольшие, тонко настроенные модели могут обеспечивать почти мгновенные решения EOT, подходящие для устройств с ограниченными ресурсами.
English
Fluid voice-to-voice interaction requires reliable and low-latency detection
of when a user has finished speaking. Traditional audio-silence end-pointers
add hundreds of milliseconds of delay and fail under hesitations or
language-specific phenomena. We present, to our knowledge, the first systematic
study of Thai text-only end-of-turn (EOT) detection for real-time agents. We
compare zero-shot and few-shot prompting of compact LLMs to supervised
fine-tuning of lightweight transformers. Using transcribed subtitles from the
YODAS corpus and Thai-specific linguistic cues (e.g., sentence-final
particles), we formulate EOT as a binary decision over token boundaries. We
report a clear accuracy-latency tradeoff and provide a public-ready
implementation plan. This work establishes a Thai baseline and demonstrates
that small, fine-tuned models can deliver near-instant EOT decisions suitable
for on-device agents.