ChatPaper.aiChatPaper

За пределами унифицированных моделей: сервис-ориентированный подход к низколатентной контекстно-зависимой фонемизации для систем TTS реального времени

Beyond Unified Models: A Service-Oriented Approach to Low Latency, Context Aware Phonemization for Real Time TTS

December 8, 2025
Авторы: Mahta Fetrat, Donya Navabi, Zahra Dehghanian, Morteza Abolghasemi, Hamid R. Rabiee
cs.AI

Аннотация

Легковесные системы преобразования текста в речь в реальном времени играют ключевую роль для обеспечения доступности. Однако наиболее эффективные модели TTS часто полагаются на упрощенные фонимизаторы, которые плохо справляются с контекстно-зависимыми задачами. В то же время, более продвинутые фонимизаторы с глубоким лингвистическим анализом обычно требуют высоких вычислительных затрат, что препятствует работе в реальном времени. В данной статье исследуется компромисс между качеством фонимизации и скоростью вывода в TTS-системах с графем-фонемным преобразованием (G2P) и предлагается практическая архитектура для преодоления этого разрыва. Мы представляем легковесные стратегии для контекстно-зависимой фонимизации и сервис-ориентированную архитектуру TTS, которая выполняет эти модули как независимые сервисы. Такой подход отделяет ресурсоемкие контекстно-зависимые компоненты от основного движка TTS, эффективно преодолевая барьер задержек и позволяя использовать высококачественные модели фонимизации в реальном времени. Экспериментальные результаты подтверждают, что предложенная система улучшает корректность произношения и лингвистическую точность при сохранении отзывчивости в реальном времени, что делает ее хорошо подходящей для автономных и устройственных TTS-приложений.
English
Lightweight, real-time text-to-speech systems are crucial for accessibility. However, the most efficient TTS models often rely on lightweight phonemizers that struggle with context-dependent challenges. In contrast, more advanced phonemizers with a deeper linguistic understanding typically incur high computational costs, which prevents real-time performance. This paper examines the trade-off between phonemization quality and inference speed in G2P-aided TTS systems, introducing a practical framework to bridge this gap. We propose lightweight strategies for context-aware phonemization and a service-oriented TTS architecture that executes these modules as independent services. This design decouples heavy context-aware components from the core TTS engine, effectively breaking the latency barrier and enabling real-time use of high-quality phonemization models. Experimental results confirm that the proposed system improves pronunciation soundness and linguistic accuracy while maintaining real-time responsiveness, making it well-suited for offline and end-device TTS applications.
PDF22December 13, 2025