Praxy Voice: Recuperação por Comando de Voz + BUPS para TTS Comercial em Línguas Índicas a partir de uma Base Congelada Não-Índica com Custo Zero de Dados de Treinamento Comerciais
Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost
April 28, 2026
Autores: Venkata Pushpak Teja Menta
cs.AI
Resumo
Os sistemas comerciais de TTS produzem áudio em línguas indianas de qualidade quase nativa, mas as melhores bases de código aberto (Chatterbox, Indic Parler-TTS, IndicF5) ficam atrás deles em dimensões fonológicas medidas, e a base multilíngue mais adotada (Chatterbox, 23 idiomas) nem mesmo tokeniza Telugu ou Tâmil. Perguntamos: qual é a intervenção mínima que traz essa base não-nativa em línguas indianas para uma saída de nível comercial em Telugu, Tâmil e Hindi, sem treinar um novo decodificador acústico e sem quaisquer dados de treinamento de TTS comerciais? Combinamos três partes: (1) BUPS, um Espaço de Fonemas Unificado Brahmi que romaniza deterministicamente sete escritas indianas para ISO-15919 para que o tokenizador latino do Chatterbox possa processá-las; (2) um adaptador LoRA apenas no preditor de tokens de texto (t3 do Chatterbox), treinado em ~1.220h de áudio indiano licenciado com um language_id proxy para Hindi; (3) uma receita de recuperação por prompt de voz – um clipe de referência de 8-11s no mesmo idioma mais três substituições de amostragem (exagero 0.7, temperatura 0.6, min_p 0.1; "Config B") – que recupera a saída acústica de nível comercial sem treinamento do decodificador acústico. Em Hindi, o LoRA regride a precisão e, em vez disso, usamos o Chatterbox vanilla + Config B, resultando em uma implantação de dois ramos. Avaliado em conjuntos piloto de 10 enunciados com o benchmark PSP complementar, o Praxy Voice iguala ou supera ligeiramente as linhas de base comerciais: 26,7% de colapso de retroflexas em Telugu (vs. Sarvam Bulbul 33,3%), 71% de colapso de 'zha' em Tâmil (vs. 86% do trio comercial), 0,025 LLM-WER em Hindi (empatado com Cartesia Sonic-3). Para code-mix intrafrasal, adicionamos um terceiro ramo (IndicF5 + transliteração para escrita nativa) que reduz o LLM-WER de code-mix de 0,80-0,85 para 0,14-0,27 em Hi/Te/Ta. Disponibilizamos os pesos LoRA R6 (Apache-2.0), o código de inferência e roteador (MIT) e uma demonstração no Gradio.
English
Commercial TTS systems produce near-native Indic audio, but the best open-source bases (Chatterbox, Indic Parler-TTS, IndicF5) trail them on measured phonological dimensions, and the most widely adopted multilingual base (Chatterbox, 23 languages) does not even tokenise Telugu or Tamil. We ask: what is the minimum intervention that brings such a non-Indic-native base to commercial-class output on Telugu, Tamil, and Hindi, without training a new acoustic decoder and without any commercial TTS training data? We combine three pieces: (1) BUPS, a Brahmic Unified Phoneme Space that deterministically romanises seven Indic scripts to ISO-15919 so Chatterbox's Latin tokeniser can process them; (2) a LoRA adapter on only the text-token predictor (Chatterbox's t3), trained on ~1,220h of licensed Indic audio with a Hindi-proxy language_id; (3) a voice-prompt recovery recipe -- an 8-11s same-language reference clip plus three sampling overrides (exaggeration 0.7, temperature 0.6, min_p 0.1; "Config B") -- that recovers commercial-class acoustic output with no acoustic-decoder training. On Hindi, the LoRA regresses accuracy and we instead use vanilla Chatterbox + Config B, giving a two-branch deployment. Evaluated on 10-utterance pilot sets with the companion PSP benchmark, Praxy Voice matches or slightly leads commercial baselines: 26.7% retroflex collapse on Telugu (vs Sarvam Bulbul 33.3%), 71% Tamil-zha collapse (vs commercial trio's 86%), 0.025 LLM-WER on Hindi (tied with Cartesia Sonic-3). For intra-sentential code-mix we add a third branch (IndicF5 + native-script transliteration) that drops code-mix LLM-WER from 0.80-0.85 to 0.14-0.27 across Hi/Te/Ta. We release R6 LoRA weights (Apache-2.0), inference code and router (MIT), and a Gradio demo.