Au-delà des modèles unifiés : une approche orientée services pour une phonémisation à faible latence et contextuelle pour la synthèse vocale en temps réel
Beyond Unified Models: A Service-Oriented Approach to Low Latency, Context Aware Phonemization for Real Time TTS
December 8, 2025
papers.authors: Mahta Fetrat, Donya Navabi, Zahra Dehghanian, Morteza Abolghasemi, Hamid R. Rabiee
cs.AI
papers.abstract
Les systèmes de synthèse vocale légers et en temps réel sont essentiels pour l'accessibilité. Cependant, les modèles de TTS les plus efficaces reposent souvent sur des phonétiseurs légers qui peinent à gérer les défis dépendants du contexte. À l'inverse, les phonétiseurs plus avancés, dotés d'une compréhension linguistique plus profonde, entraînent généralement des coûts computationnels élevés, ce qui compromet les performances en temps réel.
Cet article examine le compromis entre la qualité de la phonétisation et la vitesse d'inférence dans les systèmes de TTS assistés par G2P, en proposant un cadre pratique pour combler cet écart. Nous présentons des stratégies légères pour une phonétisation sensible au contexte et une architecture de TTS orientée services qui exécute ces modules comme des services indépendants. Cette conception dissocie les composants lourds sensibles au contexte du moteur TTS principal, franchissant efficacement la barrière de latence et permettant l'utilisation en temps réel de modèles de phonétisation de haute qualité. Les résultats expérimentaux confirment que le système proposé amène la robustesse de la prononciation et la précision linguistique tout en conservant une réactivité en temps réel, le rendant particulièrement adapté aux applications de TTS hors ligne et embarquées.
English
Lightweight, real-time text-to-speech systems are crucial for accessibility. However, the most efficient TTS models often rely on lightweight phonemizers that struggle with context-dependent challenges. In contrast, more advanced phonemizers with a deeper linguistic understanding typically incur high computational costs, which prevents real-time performance.
This paper examines the trade-off between phonemization quality and inference speed in G2P-aided TTS systems, introducing a practical framework to bridge this gap. We propose lightweight strategies for context-aware phonemization and a service-oriented TTS architecture that executes these modules as independent services. This design decouples heavy context-aware components from the core TTS engine, effectively breaking the latency barrier and enabling real-time use of high-quality phonemization models. Experimental results confirm that the proposed system improves pronunciation soundness and linguistic accuracy while maintaining real-time responsiveness, making it well-suited for offline and end-device TTS applications.