Praxy Voice: Recuperação por Comando de Voz + BUPS para TTS Comercial em Línguas Índicas a partir de uma Base Congelada Não-Índica com Custo Zero de Dados de Treinamento Comerciais

Resumo

Os sistemas comerciais de TTS produzem áudio em línguas indianas de qualidade quase nativa, mas as melhores bases de código aberto (Chatterbox, Indic Parler-TTS, IndicF5) ficam atrás deles em dimensões fonológicas medidas, e a base multilíngue mais adotada (Chatterbox, 23 idiomas) nem mesmo tokeniza Telugu ou Tâmil. Perguntamos: qual é a intervenção mínima que traz essa base não-nativa em línguas indianas para uma saída de nível comercial em Telugu, Tâmil e Hindi, sem treinar um novo decodificador acústico e sem quaisquer dados de treinamento de TTS comerciais? Combinamos três partes: (1) BUPS, um Espaço de Fonemas Unificado Brahmi que romaniza deterministicamente sete escritas indianas para ISO-15919 para que o tokenizador latino do Chatterbox possa processá-las; (2) um adaptador LoRA apenas no preditor de tokens de texto (t3 do Chatterbox), treinado em ~1.220h de áudio indiano licenciado com um language_id proxy para Hindi; (3) uma receita de recuperação por prompt de voz – um clipe de referência de 8-11s no mesmo idioma mais três substituições de amostragem (exagero 0.7, temperatura 0.6, min_p 0.1; "Config B") – que recupera a saída acústica de nível comercial sem treinamento do decodificador acústico. Em Hindi, o LoRA regride a precisão e, em vez disso, usamos o Chatterbox vanilla + Config B, resultando em uma implantação de dois ramos. Avaliado em conjuntos piloto de 10 enunciados com o benchmark PSP complementar, o Praxy Voice iguala ou supera ligeiramente as linhas de base comerciais: 26,7% de colapso de retroflexas em Telugu (vs. Sarvam Bulbul 33,3%), 71% de colapso de 'zha' em Tâmil (vs. 86% do trio comercial), 0,025 LLM-WER em Hindi (empatado com Cartesia Sonic-3). Para code-mix intrafrasal, adicionamos um terceiro ramo (IndicF5 + transliteração para escrita nativa) que reduz o LLM-WER de code-mix de 0,80-0,85 para 0,14-0,27 em Hi/Te/Ta. Disponibilizamos os pesos LoRA R6 (Apache-2.0), o código de inferência e roteador (MIT) e uma demonstração no Gradio.

English

Commercial TTS systems produce near-native Indic audio, but the best open-source bases (Chatterbox, Indic Parler-TTS, IndicF5) trail them on measured phonological dimensions, and the most widely adopted multilingual base (Chatterbox, 23 languages) does not even tokenise Telugu or Tamil. We ask: what is the minimum intervention that brings such a non-Indic-native base to commercial-class output on Telugu, Tamil, and Hindi, without training a new acoustic decoder and without any commercial TTS training data? We combine three pieces: (1) BUPS, a Brahmic Unified Phoneme Space that deterministically romanises seven Indic scripts to ISO-15919 so Chatterbox's Latin tokeniser can process them; (2) a LoRA adapter on only the text-token predictor (Chatterbox's t3), trained on ~1,220h of licensed Indic audio with a Hindi-proxy language_id; (3) a voice-prompt recovery recipe -- an 8-11s same-language reference clip plus three sampling overrides (exaggeration 0.7, temperature 0.6, min_p 0.1; "Config B") -- that recovers commercial-class acoustic output with no acoustic-decoder training. On Hindi, the LoRA regresses accuracy and we instead use vanilla Chatterbox + Config B, giving a two-branch deployment. Evaluated on 10-utterance pilot sets with the companion PSP benchmark, Praxy Voice matches or slightly leads commercial baselines: 26.7% retroflex collapse on Telugu (vs Sarvam Bulbul 33.3%), 71% Tamil-zha collapse (vs commercial trio's 86%), 0.025 LLM-WER on Hindi (tied with Cartesia Sonic-3). For intra-sentential code-mix we add a third branch (IndicF5 + native-script transliteration) that drops code-mix LLM-WER from 0.80-0.85 to 0.14-0.27 across Hi/Te/Ta. We release R6 LoRA weights (Apache-2.0), inference code and router (MIT), and a Gradio demo.

Praxy Voice: Recuperação por Comando de Voz + BUPS para TTS Comercial em Línguas Índicas a partir de uma Base Congelada Não-Índica com Custo Zero de Dados de Treinamento Comerciais

Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost

Resumo

Support