통합 모델을 넘어서: 실시간 TTS를 위한 저지연·맥락 인식 음소 변환의 서비스 지향적 접근
Beyond Unified Models: A Service-Oriented Approach to Low Latency, Context Aware Phonemization for Real Time TTS
December 8, 2025
저자: Mahta Fetrat, Donya Navabi, Zahra Dehghanian, Morteza Abolghasemi, Hamid R. Rabiee
cs.AI
초록
경량 실시간 텍스트-음성 변환 시스템은 접근성 측면에서 매우 중요합니다. 그러나 가장 효율적인 TTS 모델은 종종 문맥 의존적 문제에 취약한 경량 음소 변환기에 의존합니다. 반면, 더 깊은 언어학적 이해를 바탕으로 한 고급 음소 변환기는 일반적으로 높은 계산 비용으로 인해 실시간 성능을 달성하기 어렵습니다.
본 논문은 G2P 기반 TTS 시스템에서 음소 변환 품질과 추론 속도 간의 상관관계를 분석하며, 이러한 격차를 해소하기 위한 실용적인 프레임워크를 소개합니다. 우리는 문맥 인식 음소 변환을 위한 경량화 전략과 이러한 모듈을 독립적인 서비스로 실행하는 서비스 지향 TTS 아키텍처를 제안합니다. 이 설계는 고부하 문맥 인식 구성 요소를 핵심 TTS 엔진에서 분리하여 지연 시간 장벽을 효과적으로 극복하고 고품질 음소 변환 모델의 실시간 사용을 가능하게 합니다. 실험 결과는 제안 시스템이 실시간 응답성을 유지하면서 발음 건전성과 언어적 정확도를 향상시켜 오프라인 및 단말기 TTS 애플리케이션에 매우 적합함을 입증합니다.
English
Lightweight, real-time text-to-speech systems are crucial for accessibility. However, the most efficient TTS models often rely on lightweight phonemizers that struggle with context-dependent challenges. In contrast, more advanced phonemizers with a deeper linguistic understanding typically incur high computational costs, which prevents real-time performance.
This paper examines the trade-off between phonemization quality and inference speed in G2P-aided TTS systems, introducing a practical framework to bridge this gap. We propose lightweight strategies for context-aware phonemization and a service-oriented TTS architecture that executes these modules as independent services. This design decouples heavy context-aware components from the core TTS engine, effectively breaking the latency barrier and enabling real-time use of high-quality phonemization models. Experimental results confirm that the proposed system improves pronunciation soundness and linguistic accuracy while maintaining real-time responsiveness, making it well-suited for offline and end-device TTS applications.