ChatPaper.aiChatPaper

Voorbij Uniforme Modellen: Een Servicegerichte Benadering voor Latenstbewuste, Contextgevoelige Fonemisering voor Real-time TTS

Beyond Unified Models: A Service-Oriented Approach to Low Latency, Context Aware Phonemization for Real Time TTS

December 8, 2025
Auteurs: Mahta Fetrat, Donya Navabi, Zahra Dehghanian, Morteza Abolghasemi, Hamid R. Rabiee
cs.AI

Samenvatting

Lichte, realtime tekst-naar-spraaksystemen zijn cruciaal voor toegankelijkheid. De meest efficiënte TTS-modellen maken echter vaak gebruik van lichtgewicht fonemisatoren die moeite hebben met contextafhankelijke uitdagingen. Daarentegen brengen geavanceerdere fonemisatoren met een dieper taalkundig begrip doorgaans hoge rekenkosten met zich mee, wat realtime prestaties verhindert. Dit artikel onderzoekt de wisselwerking tussen fonemisatiekwaliteit en inferentiesnelheid in G2P-ondersteunde TTS-systemen en introduceert een praktisch raamwerk om deze kloof te overbruggen. Wij stellen lichtgewicht strategieën voor voor contextbewuste fonemisatie en een servicegeoriënteerde TTS-architectuur die deze modules als onafhankelijke diensten uitvoert. Dit ontwerp ontkoppelt zware contextbewuste componenten van de kern-TTS-engine, doorbreekt effectief de latentiedrempel en maakt realtime gebruik van hoogwaardige fonemisatiemodellen mogelijk. Experimentele resultaten bevestigen dat het voorgestelde systeem de uitspraakcorrectheid en taalkundige nauwkeurigheid verbetert, terwijl het realtime responsiviteit behoudt, waardoor het bijzonder geschikt is voor offline en on-device TTS-toepassingen.
English
Lightweight, real-time text-to-speech systems are crucial for accessibility. However, the most efficient TTS models often rely on lightweight phonemizers that struggle with context-dependent challenges. In contrast, more advanced phonemizers with a deeper linguistic understanding typically incur high computational costs, which prevents real-time performance. This paper examines the trade-off between phonemization quality and inference speed in G2P-aided TTS systems, introducing a practical framework to bridge this gap. We propose lightweight strategies for context-aware phonemization and a service-oriented TTS architecture that executes these modules as independent services. This design decouples heavy context-aware components from the core TTS engine, effectively breaking the latency barrier and enabling real-time use of high-quality phonemization models. Experimental results confirm that the proposed system improves pronunciation soundness and linguistic accuracy while maintaining real-time responsiveness, making it well-suited for offline and end-device TTS applications.
PDF22December 13, 2025