Praxy Voice: Sprachprompt-Wiederherstellung + BUPS für kommerzielle indische TTS aus einer eingefrorenen nicht-indischen Basis ohne Kosten für kommerzielle Trainingsdaten
Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost
April 28, 2026
Autoren: Venkata Pushpak Teja Menta
cs.AI
Zusammenfassung
Kommerzielle TTS-Systeme erzeugen nahezu muttersprachliche indische Sprachausgabe, doch die besten Open-Source-Basen (Chatterbox, Indic Parler-TTS, IndicF5) liegen auf gemessenen phonologischen Dimensionen hinterher, und die am weitesten verbreitete multilinguale Basis (Chatterbox, 23 Sprachen) tokenisiert nicht einmal Telugu oder Tamil. Wir stellen die Frage: Was ist der minimale Eingriff, der eine solche nicht-indischsprachige Basis auf kommerzielles Niveau für Telugu, Tamil und Hindi bringt, ohne einen neuen akustischen Decoder zu trainieren und ohne kommerzielle TTS-Trainingsdaten? Wir kombinieren drei Komponenten: (1) BUPS, einen Brahmic Unified Phoneme Space, der sieben indische Schriftsysteme deterministisch nach ISO-15919 romanisiert, damit Chatterboxs Latin-Tokenizer sie verarbeiten kann; (2) einen LoRA-Adapter nur für den Text-Token-Predictor (Chatterboxs t3), trainiert mit ~1.220 h lizenzierten indischen Audiodaten und einer Hindi-Proxy-Sprachenkennung (language_id); (3) ein Voice-Prompt-Wiederherstellungsverfahren – ein 8–11 s langes Referenzaudio in derselben Sprache plus drei Sampling-Überschreibungen (Übertreibung 0,7, Temperatur 0,6, min_p 0,1; "Konfig B") – das kommerzielle akustische Ausgabe ohne Training des akustischen Decoders erreicht. Für Hindi verschlechtert LoRA die Genauigkeit, daher verwenden wir stattdessen vanilla Chatterbox + Konfig B, was zu einer Zwei-Zweig-Implementierung führt. Bewertet anhand von 10-Satz-Pilotdatensätzen mit dem begleitenden PSP-Benchmark, übertrifft oder erreicht Praxy Voice kommerzielle Vergleichswerte: 26,7% retroflexer Kollaps bei Telugu (vs. Sarvam Bulbul 33,3%), 71% Tamil-zha-Kollaps (vs. 86% des kommerziellen Trios), 0,025 LLM-WER bei Hindi (gleichauf mit Cartesia Sonic-3). Für intrasententiales Code-Mixing fügen wir einen dritten Zweig hinzu (IndicF5 + Transliteration in Originalschrift), der die Code-Mix-LLM-WER über Hi/Te/Ta von 0,80–0,85 auf 0,14–0,27 senkt. Wir veröffentlichen R6-LoRA-Gewichte (Apache-2.0), Inferenzcode und Router (MIT) sowie eine Gradio-Demo.
English
Commercial TTS systems produce near-native Indic audio, but the best open-source bases (Chatterbox, Indic Parler-TTS, IndicF5) trail them on measured phonological dimensions, and the most widely adopted multilingual base (Chatterbox, 23 languages) does not even tokenise Telugu or Tamil. We ask: what is the minimum intervention that brings such a non-Indic-native base to commercial-class output on Telugu, Tamil, and Hindi, without training a new acoustic decoder and without any commercial TTS training data? We combine three pieces: (1) BUPS, a Brahmic Unified Phoneme Space that deterministically romanises seven Indic scripts to ISO-15919 so Chatterbox's Latin tokeniser can process them; (2) a LoRA adapter on only the text-token predictor (Chatterbox's t3), trained on ~1,220h of licensed Indic audio with a Hindi-proxy language_id; (3) a voice-prompt recovery recipe -- an 8-11s same-language reference clip plus three sampling overrides (exaggeration 0.7, temperature 0.6, min_p 0.1; "Config B") -- that recovers commercial-class acoustic output with no acoustic-decoder training. On Hindi, the LoRA regresses accuracy and we instead use vanilla Chatterbox + Config B, giving a two-branch deployment. Evaluated on 10-utterance pilot sets with the companion PSP benchmark, Praxy Voice matches or slightly leads commercial baselines: 26.7% retroflex collapse on Telugu (vs Sarvam Bulbul 33.3%), 71% Tamil-zha collapse (vs commercial trio's 86%), 0.025 LLM-WER on Hindi (tied with Cartesia Sonic-3). For intra-sentential code-mix we add a third branch (IndicF5 + native-script transliteration) that drops code-mix LLM-WER from 0.80-0.85 to 0.14-0.27 across Hi/Te/Ta. We release R6 LoRA weights (Apache-2.0), inference code and router (MIT), and a Gradio demo.