Jenseits einheitlicher Modelle: Ein serviceorientierter Ansatz für latenzarme, kontextbewusste Phonemisierung in Echtzeit-TTS
Beyond Unified Models: A Service-Oriented Approach to Low Latency, Context Aware Phonemization for Real Time TTS
December 8, 2025
papers.authors: Mahta Fetrat, Donya Navabi, Zahra Dehghanian, Morteza Abolghasemi, Hamid R. Rabiee
cs.AI
papers.abstract
Leichte, echtzeitfähige Text-zu-Sprache-Systeme sind entscheidend für Barrierefreiheit. Allerdings basieren die effizientesten TTS-Modelle oft auf einfachen Phonemisierern, die mit kontextabhängigen Herausforderungen kämpfen. Im Gegensatz dazu verursachen fortschrittlichere Phonemisierer mit tieferem linguistischem Verständnis typischerweise hohe Rechenkosten, was Echtzeitfähigkeit verhindert.
Diese Arbeit untersucht den Zielkonflikt zwischen Phonemisierungsqualität und Inferenzgeschwindigkeit in G2P-gestützten TTS-Systemen und stellt einen praktischen Rahmen vor, um diese Lücke zu schließen. Wir schlagen leichte Strategien für kontextbewusste Phonemisierung sowie eine dienstorientierte TTS-Architektur vor, die diese Module als unabhängige Dienste ausführt. Dieses Design entkoppelt rechenintensive, kontextbewusste Komponenten von der TTS-Hauptengine, durchbricht die Latenzbarriere effektiv und ermöglicht so den Echtzeiteinsatz hochwertiger Phonemisierungsmodelle.
Experimentelle Ergebnisse bestätigen, dass das vorgeschlagene System die Aussprachekorrektheit und linguistische Genauigkeit verbessert und dabei Echtzeitreaktionsfähigkeit beibehält. Dies macht es besonders geeignet für Offline- und Endgeräte-TTS-Anwendungen.
English
Lightweight, real-time text-to-speech systems are crucial for accessibility. However, the most efficient TTS models often rely on lightweight phonemizers that struggle with context-dependent challenges. In contrast, more advanced phonemizers with a deeper linguistic understanding typically incur high computational costs, which prevents real-time performance.
This paper examines the trade-off between phonemization quality and inference speed in G2P-aided TTS systems, introducing a practical framework to bridge this gap. We propose lightweight strategies for context-aware phonemization and a service-oriented TTS architecture that executes these modules as independent services. This design decouples heavy context-aware components from the core TTS engine, effectively breaking the latency barrier and enabling real-time use of high-quality phonemization models. Experimental results confirm that the proposed system improves pronunciation soundness and linguistic accuracy while maintaining real-time responsiveness, making it well-suited for offline and end-device TTS applications.