Más allá de los modelos unificados: Un enfoque orientado a servicios para la fonemización de baja latencia y consciente del contexto en TTS en tiempo real
Beyond Unified Models: A Service-Oriented Approach to Low Latency, Context Aware Phonemization for Real Time TTS
December 8, 2025
Autores: Mahta Fetrat, Donya Navabi, Zahra Dehghanian, Morteza Abolghasemi, Hamid R. Rabiee
cs.AI
Resumen
Los sistemas de texto a voz ligeros y en tiempo real son cruciales para la accesibilidad. Sin embargo, los modelos de TTS más eficientes suelen depender de fonetizadores ligeros que tienen dificultades con los desafíos dependientes del contexto. Por el contrario, los fonetizadores más avanzados, con una comprensión lingüística más profunda, normalmente conllevan altos costes computacionales, lo que impide el rendimiento en tiempo real.
Este artículo examina la compensación entre la calidad de la fonetización y la velocidad de inferencia en sistemas de TTS asistidos por G2P, introduciendo un marco práctico para salvar esta brecha. Proponemos estrategias ligeras para la fonetización consciente del contexto y una arquitectura de TTS orientada a servicios que ejecuta estos módulos como servicios independientes. Este diseño desacopla los componentes pesados conscientes del contexto del motor central de TTS, rompiendo efectivamente la barrera de latencia y permitiendo el uso en tiempo real de modelos de fonetización de alta calidad. Los resultados experimentales confirman que el sistema propuesto mejora la solidez de la pronunciación y la precisión lingüística, manteniendo al mismo tiempo la capacidad de respuesta en tiempo real, lo que lo hace idóneo para aplicaciones de TTS fuera de línea y en dispositivos finales.
English
Lightweight, real-time text-to-speech systems are crucial for accessibility. However, the most efficient TTS models often rely on lightweight phonemizers that struggle with context-dependent challenges. In contrast, more advanced phonemizers with a deeper linguistic understanding typically incur high computational costs, which prevents real-time performance.
This paper examines the trade-off between phonemization quality and inference speed in G2P-aided TTS systems, introducing a practical framework to bridge this gap. We propose lightweight strategies for context-aware phonemization and a service-oriented TTS architecture that executes these modules as independent services. This design decouples heavy context-aware components from the core TTS engine, effectively breaking the latency barrier and enabling real-time use of high-quality phonemization models. Experimental results confirm that the proposed system improves pronunciation soundness and linguistic accuracy while maintaining real-time responsiveness, making it well-suited for offline and end-device TTS applications.