Praxy Voice : Récupération par Invocation Vocale + BUPS pour la Synthèse Vocale Commerciale en Langues Indiennes à partir d'une Base Non-Indienne Figée, sans Coût de Données d'Entraînement Commerciales.
Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost
April 28, 2026
Auteurs: Venkata Pushpak Teja Menta
cs.AI
Résumé
Les systèmes de synthèse vocale (TTS) commerciaux produisent des audios en langues indiennes d'une qualité quasi-native. Cependant, les meilleures bases open-source (Chatterbox, Indic Parler-TTS, IndicF5) sont distancées sur les dimensions phonologiques mesurées, et la base multilingue la plus utilisée (Chatterbox, 23 langues) ne tokenise même pas le télougou ou le tamoul. Nous posons la question : quelle est l'intervention minimale permettant d'amener une telle base non-native pour les langues indiennes à un niveau de sortie commercial pour le télougou, le tamoul et l'hindi, sans entraîner un nouveau décodeur acoustique et sans utiliser aucune donnée d'entraînement de TTS commercial ? Nous combinons trois éléments : (1) BUPS, un espace phonémique unifié pour les écritures brahmiques qui romanise de manière déterministe sept écritures indiennes vers l'ISO-15919 afin que le tokeniseur Latin de Chatterbox puisse les traiter ; (2) un adaptateur LoRA appliqué uniquement au prédicteur de tokens textuels (le module t3 de Chatterbox), entraîné sur environ 1 220 heures d'audio indien sous licence avec un identifiant de langue proxy-hindi ; (3) une recette de récupération par prompt vocal – un clip de référence de 8 à 11 secondes dans la même langue plus trois paramètres de surcharge d'échantillonnage (exagération 0.7, température 0.6, min_p 0.1 ; « Config B ») – qui permet de retrouver une sortie acoustique de niveau commercial sans aucun entraînement du décodeur acoustique. Pour l'hindi, le LoRA régresse en précision et nous utilisons plutôt Chatterbox vanilla + Config B, ce qui donne un déploiement à deux branches. Évalué sur des ensembles pilotes de 10 énoncés avec le benchmark PSP compagnon, Praxy Voice égal ou dépasse légèrement les bases de référence commerciales : 26,7 % d'effondrement rétroflexe en télougou (contre 33,3 % pour Sarvam Bulbul), 71 % d'effondrement du « zha » tamoul (contre 86 % pour le trio commercial), 0.025 LLM-WER sur l'hindi (à égalité avec Cartesia Sonic-3). Pour le code-mixing intraphrastique, nous ajoutons une troisième branche (IndicF5 + translittération en écriture native) qui réduit le LLM-WER du code-mixing de 0,80-0,85 à 0,14-0,27 pour les combinaisons Hi/Te/Ta. Nous publions les poids LoRA R6 (Apache-2.0), le code d'inférence et le routeur (MIT), et une démo Gradio.
English
Commercial TTS systems produce near-native Indic audio, but the best open-source bases (Chatterbox, Indic Parler-TTS, IndicF5) trail them on measured phonological dimensions, and the most widely adopted multilingual base (Chatterbox, 23 languages) does not even tokenise Telugu or Tamil. We ask: what is the minimum intervention that brings such a non-Indic-native base to commercial-class output on Telugu, Tamil, and Hindi, without training a new acoustic decoder and without any commercial TTS training data? We combine three pieces: (1) BUPS, a Brahmic Unified Phoneme Space that deterministically romanises seven Indic scripts to ISO-15919 so Chatterbox's Latin tokeniser can process them; (2) a LoRA adapter on only the text-token predictor (Chatterbox's t3), trained on ~1,220h of licensed Indic audio with a Hindi-proxy language_id; (3) a voice-prompt recovery recipe -- an 8-11s same-language reference clip plus three sampling overrides (exaggeration 0.7, temperature 0.6, min_p 0.1; "Config B") -- that recovers commercial-class acoustic output with no acoustic-decoder training. On Hindi, the LoRA regresses accuracy and we instead use vanilla Chatterbox + Config B, giving a two-branch deployment. Evaluated on 10-utterance pilot sets with the companion PSP benchmark, Praxy Voice matches or slightly leads commercial baselines: 26.7% retroflex collapse on Telugu (vs Sarvam Bulbul 33.3%), 71% Tamil-zha collapse (vs commercial trio's 86%), 0.025 LLM-WER on Hindi (tied with Cartesia Sonic-3). For intra-sentential code-mix we add a third branch (IndicF5 + native-script transliteration) that drops code-mix LLM-WER from 0.80-0.85 to 0.14-0.27 across Hi/Te/Ta. We release R6 LoRA weights (Apache-2.0), inference code and router (MIT), and a Gradio demo.