統一モデルを超えて:リアルタイムTTSのための低遅延・文脈対応音素化へのサービス指向アプローチ
Beyond Unified Models: A Service-Oriented Approach to Low Latency, Context Aware Phonemization for Real Time TTS
December 8, 2025
著者: Mahta Fetrat, Donya Navabi, Zahra Dehghanian, Morteza Abolghasemi, Hamid R. Rabiee
cs.AI
要旨
軽量でリアルタイムなテキスト音声合成システムは、アクセシビリティにおいて極めて重要である。しかし、最も効率的なTTSモデルは、文脈依存の課題に対処するのが困難な軽量な音韻化モジュールに依存する場合が多い。一方、より深い言語的理解を備えた高度な音韻化モジュールは、通常、高い計算コストを伴い、リアルタイム性能を阻害する。
本論文は、G2P支援型TTSシステムにおける音韻化品質と推論速度のトレードオフを検証し、この隔たりを埋める実用的なフレームワークを提案する。我々は、文脈を考慮した音韻化のための軽量戦略と、これらのモジュールを独立したサービスとして実行するサービス指向のTTSアーキテクチャを提案する。この設計は、高負荷な文脈認識コンポーネントを中核のTTSエンジンから分離し、レイテンシの障壁を効果的に打破することで、高品質な音韻化モデルのリアルタイム利用を可能にする。実験結果から、提案システムが発音の正確さと言語的精度を向上させつつ、リアルタイム応答性を維持することを確認した。これは、オフラインおよびエンドデバイス向けTTSアプリケーションに適している。
English
Lightweight, real-time text-to-speech systems are crucial for accessibility. However, the most efficient TTS models often rely on lightweight phonemizers that struggle with context-dependent challenges. In contrast, more advanced phonemizers with a deeper linguistic understanding typically incur high computational costs, which prevents real-time performance.
This paper examines the trade-off between phonemization quality and inference speed in G2P-aided TTS systems, introducing a practical framework to bridge this gap. We propose lightweight strategies for context-aware phonemization and a service-oriented TTS architecture that executes these modules as independent services. This design decouples heavy context-aware components from the core TTS engine, effectively breaking the latency barrier and enabling real-time use of high-quality phonemization models. Experimental results confirm that the proposed system improves pronunciation soundness and linguistic accuracy while maintaining real-time responsiveness, making it well-suited for offline and end-device TTS applications.