Praxy Voice: Recupero tramite Prompt Vocale + BUPS per TTS Indic di Classe Commerciale da una Base Congelata Non-Indic a Costo Zero di Dati di Addestramento Commerciali
Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost
April 28, 2026
Autori: Venkata Pushpak Teja Menta
cs.AI
Abstract
I sistemi TTS commerciali producono audio in lingue indiane di qualità quasi nativa, ma le migliori basi open-source (Chatterbox, Indic Parler-TTS, IndicF5) sono inferiori su dimensioni fonologiche misurate, e la base multilingue più adottata (Chatterbox, 23 lingue) non tokenizza nemmeno telugu o tamil. Ci chiediamo: qual è l'intervento minimo che porta una base di questo tipo, non nativa per le lingue indiane, a produrre output di livello commerciale per telugu, tamil e hindi, senza addestrare un nuovo decoder acustico e senza dati di addestramento TTS commerciali? Combiniamo tre elementi: (1) BUPS, uno Spazio Fonematico Unificato Brahmi che romanizza deterministicamente sette scritture indiane secondo ISO-15919 così che il tokenizer latino di Chatterbox possa processarle; (2) un adattatore LoRA solo sul predictor di token testuali (t3 di Chatterbox), addestrato su ~1.220h di audio indiano licenziato con un language_id proxy per l'hindi; (3) una ricetta di recupero del prompt vocale – un clip di riferimento di 8-11s nella stessa lingua più tre override di campionamento (exaggeration 0.7, temperature 0.6, min_p 0.1; "Config B") – che recupera un output acustico di livello commerciale senza addestramento del decoder acustico. Per l'hindi, il LoRA regredisce l'accuratezza e usiamo invece Chatterbox vanilla + Config B, ottenendo un deployment a due rami. Valutato su set pilota di 10 espressioni con il benchmark PSP companion, Praxy Voice eguaglia o supera leggermente i baseline commerciali: 26.7% di collasso retroflesso sul telugu (vs Sarvam Bulbul 33.3%), 71% di collasso della zha tamil (vs 86% del trio commerciale), 0.025 LLM-WER sull'hindi (pari merito con Cartesia Sonic-3). Per il code-mix intra-frase aggiungiamo un terzo ramo (IndicF5 + traslitterazione in scrittura nativa) che riduce il LLM-WER del code-mix da 0.80-0.85 a 0.14-0.27 su Hi/Te/Ta. Rilasciamo i pesi LoRA R6 (Apache-2.0), il codice di inference e router (MIT), e una demo Gradio.
English
Commercial TTS systems produce near-native Indic audio, but the best open-source bases (Chatterbox, Indic Parler-TTS, IndicF5) trail them on measured phonological dimensions, and the most widely adopted multilingual base (Chatterbox, 23 languages) does not even tokenise Telugu or Tamil. We ask: what is the minimum intervention that brings such a non-Indic-native base to commercial-class output on Telugu, Tamil, and Hindi, without training a new acoustic decoder and without any commercial TTS training data? We combine three pieces: (1) BUPS, a Brahmic Unified Phoneme Space that deterministically romanises seven Indic scripts to ISO-15919 so Chatterbox's Latin tokeniser can process them; (2) a LoRA adapter on only the text-token predictor (Chatterbox's t3), trained on ~1,220h of licensed Indic audio with a Hindi-proxy language_id; (3) a voice-prompt recovery recipe -- an 8-11s same-language reference clip plus three sampling overrides (exaggeration 0.7, temperature 0.6, min_p 0.1; "Config B") -- that recovers commercial-class acoustic output with no acoustic-decoder training. On Hindi, the LoRA regresses accuracy and we instead use vanilla Chatterbox + Config B, giving a two-branch deployment. Evaluated on 10-utterance pilot sets with the companion PSP benchmark, Praxy Voice matches or slightly leads commercial baselines: 26.7% retroflex collapse on Telugu (vs Sarvam Bulbul 33.3%), 71% Tamil-zha collapse (vs commercial trio's 86%), 0.025 LLM-WER on Hindi (tied with Cartesia Sonic-3). For intra-sentential code-mix we add a third branch (IndicF5 + native-script transliteration) that drops code-mix LLM-WER from 0.80-0.85 to 0.14-0.27 across Hi/Te/Ta. We release R6 LoRA weights (Apache-2.0), inference code and router (MIT), and a Gradio demo.