ChatPaper.aiChatPaper

Praxy Voice: Recuperación por Comando de Voz + BUPS para TTS de Lenguas Índicas de Grado Comercial a partir de una Base No Índica Congelada, con Coste Cero de Datos de Entrenamiento Comercial

Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost

April 28, 2026
Autores: Venkata Pushpak Teja Menta
cs.AI

Resumen

Los sistemas comerciales de TTS producen audio en lenguas índicas de calidad casi nativa, pero las mejores bases de código abierto (Chatterbox, Indic Parler-TTS, IndicF5) se quedan atrás en las dimensiones fonológicas medidas, y la base multilingüe más adoptada (Chatterbox, 23 idiomas) ni siquiera tokeniza el telugu o el tamil. Nos preguntamos: ¿cuál es la intervención mínima que lleva a una base de este tipo, no nativa para lenguas índicas, a producir resultados de clase comercial en telugu, tamil e hindi, sin entrenar un nuevo decodificador acústico y sin utilizar datos de entrenamiento de TTS comerciales? Combinamos tres elementos: (1) BUPS, un Espacio de Fonemas Unificado Brahmic que romaniza determinísticamente siete escrituras índicas a ISO-15919 para que el tokenizador latino de Chatterbox pueda procesarlas; (2) un adaptador LoRA aplicado únicamente al predictor de tokens de texto (t3 de Chatterbox), entrenado con ~1.220 h de audio índico licenciado y usando un language_id proxy del hindi; (3) una receta de recuperación por prompt de voz – un clip de referencia de 8-11 s en el mismo idioma más tres anulaciones de muestreo (exageración 0.7, temperatura 0.6, min_p 0.1; "Configuración B") – que recupera una salida acústica de clase comercial sin entrenamiento del decodificador acústico. En hindi, el LoRA reduce la precisión, por lo que en su lugar usamos Chatterbox vanilla + Configuración B, dando lugar a un despliegue de dos ramas. Evaluado en conjuntos piloto de 10 enunciados con el benchmark PSP complementario, Praxy Voice iguala o supera ligeramente los baselines comerciales: 26.7% de colapso de retroflejas en telugu (vs. 33.3% de Sarvam Bulbul), 71% de colapso de zha en tamil (vs. 86% del trío comercial), 0.025 LLM-WER en hindi (empatado con Cartesia Sonic-3). Para el código mixto intrasentencial añadimos una tercera rama (IndicF5 + transliteración a escritura nativa) que reduce el LLM-WER de código mixto de 0.80-0.85 a 0.14-0.27 en hindi/telugu/tamil. Publicamos los pesos LoRA R6 (Apache-2.0), el código de inferencia y el enrutador (MIT), y una demo en Gradio.
English
Commercial TTS systems produce near-native Indic audio, but the best open-source bases (Chatterbox, Indic Parler-TTS, IndicF5) trail them on measured phonological dimensions, and the most widely adopted multilingual base (Chatterbox, 23 languages) does not even tokenise Telugu or Tamil. We ask: what is the minimum intervention that brings such a non-Indic-native base to commercial-class output on Telugu, Tamil, and Hindi, without training a new acoustic decoder and without any commercial TTS training data? We combine three pieces: (1) BUPS, a Brahmic Unified Phoneme Space that deterministically romanises seven Indic scripts to ISO-15919 so Chatterbox's Latin tokeniser can process them; (2) a LoRA adapter on only the text-token predictor (Chatterbox's t3), trained on ~1,220h of licensed Indic audio with a Hindi-proxy language_id; (3) a voice-prompt recovery recipe -- an 8-11s same-language reference clip plus three sampling overrides (exaggeration 0.7, temperature 0.6, min_p 0.1; "Config B") -- that recovers commercial-class acoustic output with no acoustic-decoder training. On Hindi, the LoRA regresses accuracy and we instead use vanilla Chatterbox + Config B, giving a two-branch deployment. Evaluated on 10-utterance pilot sets with the companion PSP benchmark, Praxy Voice matches or slightly leads commercial baselines: 26.7% retroflex collapse on Telugu (vs Sarvam Bulbul 33.3%), 71% Tamil-zha collapse (vs commercial trio's 86%), 0.025 LLM-WER on Hindi (tied with Cartesia Sonic-3). For intra-sentential code-mix we add a third branch (IndicF5 + native-script transliteration) that drops code-mix LLM-WER from 0.80-0.85 to 0.14-0.27 across Hi/Te/Ta. We release R6 LoRA weights (Apache-2.0), inference code and router (MIT), and a Gradio demo.
PDF11May 1, 2026