ChatPaper.aiChatPaper

Praxy Voice: Spraakgestuurde Stemherstel + BUPS voor Commerciële Indic TTS vanuit een Bevroren Niet-Indische Basis, tegen Nul Kosten voor Commerciële Trainingsgegevens

Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost

April 28, 2026
Auteurs: Venkata Pushpak Teja Menta
cs.AI

Samenvatting

Commerciële TTS-systemen produceren bijna-moedertaalkwaliteit audio voor Indiase talen, maar de beste open-source-bases (Chatterbox, Indic Parler-TTS, IndicF5) blijven achter op gemeten fonologische dimensies, en de meest gebruikte meertalige base (Chatterbox, 23 talen) tokeniseert Telugu of Tamil niet eens. Wij stellen de vraag: wat is de minimale interventie die zo'n niet-voor-Indiase-talen-gebouwde base naar commerciële-kwaliteit output brengt voor Telugu, Tamil en Hindi, zonder een nieuwe akoestische decoder te trainen en zonder gebruik van commerciële TTS-trainingsdata? Wij combineren drie onderdelen: (1) BUPS, een Brahmic Unified Phoneme Space die zeven Indiase schriften deterministisch romaniseert naar ISO-15919 zodat Chatterbox's Latin-tokenizer ze kan verwerken; (2) een LoRA-adapter uitsluitend op de tekst-token-voorspeller (Chatterbox's t3), getraind op ~1.220 uur gelicentieerde Indiase audio met een Hindi-proxy language_id; (3) een voice-prompt-herstelrecept – een referentieclip van 8-11 seconden in dezelfde taal plus drie sampling-overrides (exaggeration 0.7, temperature 0.6, min_p 0.1; "Configuratie B") – dat commerciële-kwaliteit akoestische output herstelt zonder training van de akoestische decoder. Voor Hindi vermindert de LoRA de nauwkeurigheid en gebruiken we in plaats daarvan vanilla Chatterbox + Configuratie B, wat resulteert in een implementatie met twee takken. Geëvalueerd op 10-uiting pilot sets met de bijbehorende PSP-benchmark, evenaart of overtreft Praxy Voice de commerciële referentiesystemen licht: 26,7% retroflex-collaps voor Telugu (vs. Sarvam Bulbul 33,3%), 71% Tamil-zha-collaps (vs. 86% van een commercieel trio), 0,025 LLM-WER voor Hindi (gelijk aan Cartesia Sonic-3). Voor intra-zin code-mixing voegen we een derde tak toe (IndicF5 + native-script transliteratie) die de code-mix LLM-WER verlaagt van 0,80-0,85 naar 0,14-0,27 voor Hi/Te/Ta. Wij geven R6 LoRA-gewichten vrij (Apache-2.0), inferentiecode en router (MIT), en een Gradio-demo.
English
Commercial TTS systems produce near-native Indic audio, but the best open-source bases (Chatterbox, Indic Parler-TTS, IndicF5) trail them on measured phonological dimensions, and the most widely adopted multilingual base (Chatterbox, 23 languages) does not even tokenise Telugu or Tamil. We ask: what is the minimum intervention that brings such a non-Indic-native base to commercial-class output on Telugu, Tamil, and Hindi, without training a new acoustic decoder and without any commercial TTS training data? We combine three pieces: (1) BUPS, a Brahmic Unified Phoneme Space that deterministically romanises seven Indic scripts to ISO-15919 so Chatterbox's Latin tokeniser can process them; (2) a LoRA adapter on only the text-token predictor (Chatterbox's t3), trained on ~1,220h of licensed Indic audio with a Hindi-proxy language_id; (3) a voice-prompt recovery recipe -- an 8-11s same-language reference clip plus three sampling overrides (exaggeration 0.7, temperature 0.6, min_p 0.1; "Config B") -- that recovers commercial-class acoustic output with no acoustic-decoder training. On Hindi, the LoRA regresses accuracy and we instead use vanilla Chatterbox + Config B, giving a two-branch deployment. Evaluated on 10-utterance pilot sets with the companion PSP benchmark, Praxy Voice matches or slightly leads commercial baselines: 26.7% retroflex collapse on Telugu (vs Sarvam Bulbul 33.3%), 71% Tamil-zha collapse (vs commercial trio's 86%), 0.025 LLM-WER on Hindi (tied with Cartesia Sonic-3). For intra-sentential code-mix we add a third branch (IndicF5 + native-script transliteration) that drops code-mix LLM-WER from 0.80-0.85 to 0.14-0.27 across Hi/Te/Ta. We release R6 LoRA weights (Apache-2.0), inference code and router (MIT), and a Gradio demo.
PDF11May 1, 2026