ChatPaper.aiChatPaper

Пракси Голос: Восстановление голоса по промптам + BUPS для коммерческого индийского TTS на основе замороженной неиндийской модели с нулевой стоимостью коммерческих обучающих данных

Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost

April 28, 2026
Авторы: Venkata Pushpak Teja Menta
cs.AI

Аннотация

Коммерческие системы синтеза речи (TTS) генерируют звук, близкий к нативному для индийских языков, однако лучшие открытые основы (Chatterbox, Indic Parler-TTS, IndicF5) уступают им по измеряемым фонологическим параметрам, а наиболее широко используемая многоязычная база (Chatterbox, 23 языка) даже не токенизирует телугу или тамильский. Мы задаемся вопросом: каково минимальное вмешательство, которое позволяет такой ненативной для индийских языков базе достичь коммерческого уровня качества выходного аудио для телугу, тамильского и хинди, без обучения нового акустического декодера и без использования каких-либо коммерческих обучающих данных для TTS? Мы объединяем три компонента: (1) BUPS, унифицированное фонемное пространство для брахмических письменностей, которое детерминировано романизирует семь индийских письменностей в стандарт ISO-15919, чтобы токенизатор Chatterbox для латиницы мог их обрабатывать; (2) адаптер LoRA, применяемый только к предиктору текстовых токенов (модуль t3 в Chatterbox), обученный на ~1220 часах лицензированного индийского аудио с языковой меткой language_id в качестве прокси для хинди; (3) рецепт восстановления голоса по промпту — эталонный фрагмент длительностью 8-11 секунд на том же языке плюс три параметра переопределения сэмплирования (преувеличение 0.7, температура 0.6, min_p 0.1; "Конфигурация B") — который восстанавливает акустический выход коммерческого уровня без обучения акустического декодера. Для хинди LoRA снижает точность, и мы вместо этого используем vanilla Chatterbox + Конфигурацию B, что дает двухветвевое развертывание. По оценкам на пилотных наборах из 10 фраз с использованием сопутствующего бенчмарка PSP, система Praxy Voice соответствует или незначительно превосходит коммерческие базовые линии: 26.7% коллапса ретрофлексных согласных на телугу (против 33.3% у Sarvam Bulbul), 71% коллапса тамильского звука 'zha' (против 86% у трио коммерческих систем), LLM-WER 0.025 на хинди (наравне с Cartesia Sonic-3). Для внутрифразового кодового смешения мы добавляем третью ветвь (IndicF5 + транслитерация нативной письменности), которая снижает LLM-WER для кодового смешения с 0.80-0.85 до 0.14-0.27 для хинди/телугу/тамильского. Мы публикуем веса LoRA R6 (лицензия Apache-2.0), код и маршрутизатор для вывода (лицензия MIT), а также демо-интерфейс на Gradio.
English
Commercial TTS systems produce near-native Indic audio, but the best open-source bases (Chatterbox, Indic Parler-TTS, IndicF5) trail them on measured phonological dimensions, and the most widely adopted multilingual base (Chatterbox, 23 languages) does not even tokenise Telugu or Tamil. We ask: what is the minimum intervention that brings such a non-Indic-native base to commercial-class output on Telugu, Tamil, and Hindi, without training a new acoustic decoder and without any commercial TTS training data? We combine three pieces: (1) BUPS, a Brahmic Unified Phoneme Space that deterministically romanises seven Indic scripts to ISO-15919 so Chatterbox's Latin tokeniser can process them; (2) a LoRA adapter on only the text-token predictor (Chatterbox's t3), trained on ~1,220h of licensed Indic audio with a Hindi-proxy language_id; (3) a voice-prompt recovery recipe -- an 8-11s same-language reference clip plus three sampling overrides (exaggeration 0.7, temperature 0.6, min_p 0.1; "Config B") -- that recovers commercial-class acoustic output with no acoustic-decoder training. On Hindi, the LoRA regresses accuracy and we instead use vanilla Chatterbox + Config B, giving a two-branch deployment. Evaluated on 10-utterance pilot sets with the companion PSP benchmark, Praxy Voice matches or slightly leads commercial baselines: 26.7% retroflex collapse on Telugu (vs Sarvam Bulbul 33.3%), 71% Tamil-zha collapse (vs commercial trio's 86%), 0.025 LLM-WER on Hindi (tied with Cartesia Sonic-3). For intra-sentential code-mix we add a third branch (IndicF5 + native-script transliteration) that drops code-mix LLM-WER from 0.80-0.85 to 0.14-0.27 across Hi/Te/Ta. We release R6 LoRA weights (Apache-2.0), inference code and router (MIT), and a Gradio demo.
PDF11May 1, 2026