Oltre i modelli unificati: un approccio orientato ai servizi per la fonemizzazione a bassa latenza e consapevole del contesto per il TTS in tempo reale
Beyond Unified Models: A Service-Oriented Approach to Low Latency, Context Aware Phonemization for Real Time TTS
December 8, 2025
Autori: Mahta Fetrat, Donya Navabi, Zahra Dehghanian, Morteza Abolghasemi, Hamid R. Rabiee
cs.AI
Abstract
I sistemi di sintesi vocale leggeri e in tempo reale sono cruciali per l'accessibilità. Tuttavia, i modelli TTS più efficienti si basano spesso su fonemizzatori leggeri che faticano a gestire le sfide dipendenti dal contesto. Al contrario, fonemizzatori più avanzati, dotati di una comprensione linguistica più profonda, comportano tipicamente costi computazionali elevati, il che impedisce le prestazioni in tempo reale.
Questo articolo esamina il compromesso tra qualità della fonemizzazione e velocità di inferenza nei sistemi TTS assistiti da G2P, introducendo un quadro pratico per colmare questa lacuna. Proponiamo strategie leggere per la fonemizzazione consapevole del contesto e un'architettura TTS orientata ai servizi che esegue questi moduli come servizi indipendenti. Questo progetto disaccoppia i componenti pesanti e consapevoli del contesto dal motore TTS centrale, superando efficacemente la barriera della latenza e consentendo l'uso in tempo reale di modelli di fonemizzazione di alta qualità. I risultati sperimentali confermano che il sistema proposto migliora la correttezza della pronuncia e l'accuratezza linguistica mantenendo al contempo la reattività in tempo reale, rendendolo particolarmente adatto per applicazioni TTS offline e su dispositivi finali.
English
Lightweight, real-time text-to-speech systems are crucial for accessibility. However, the most efficient TTS models often rely on lightweight phonemizers that struggle with context-dependent challenges. In contrast, more advanced phonemizers with a deeper linguistic understanding typically incur high computational costs, which prevents real-time performance.
This paper examines the trade-off between phonemization quality and inference speed in G2P-aided TTS systems, introducing a practical framework to bridge this gap. We propose lightweight strategies for context-aware phonemization and a service-oriented TTS architecture that executes these modules as independent services. This design decouples heavy context-aware components from the core TTS engine, effectively breaking the latency barrier and enabling real-time use of high-quality phonemization models. Experimental results confirm that the proposed system improves pronunciation soundness and linguistic accuracy while maintaining real-time responsiveness, making it well-suited for offline and end-device TTS applications.