Bolbosh: Fluxo Condicionado por Script para Síntese de Fala em Caxemira

Resumo

O caxemir é falado por cerca de 7 milhões de pessoas, mas permanece criticamente subatendido em tecnologias de voz, apesar do seu estatuto oficial e rico património linguístico. A falta de sistemas robustos de conversão de texto em voz (TTS) limita a acessibilidade digital e a interação inclusiva homem-computador para os falantes nativos. Neste trabalho, apresentamos o primeiro sistema neural de TTS de código aberto dedicado ao caxemir. Demonstramos que baselines multilingues de zero-shot treinadas para línguas indianas não produzem fala inteligível, atingindo um Mean Opinion Score (MOS) de apenas 1,86, em grande parte devido à modelagem inadequada dos diacríticos perso-árabes e da fonotática específica da língua. Para superar estas limitações, propomos o Bolbosh, uma estratégia de adaptação cross-lingual supervisionada baseada em Optimal Transport Conditional Flow Matching (OT-CFM) no framework Matcha-TTS. Isto permite um alinhamento estável com dados emparelhados limitados. Introduzimos ainda um pipeline de três estágios para aprimoramento acústico, consistindo em desreverberação, corte de silêncios e normalização de loudness, para unificar fontes de fala heterogéneas e estabilizar a aprendizagem de alinhamento. O vocabulário do modelo é expandido para codificar explicitamente os grafemas do caxemir, preservando distinções vocálicas de granularidade fina. O nosso sistema atinge um MOS de 3,63 e um Mel-Cepstral Distortion (MCD) de 3,73, superando substancialmente as baselines multilingues e estabelecendo um novo benchmark para a síntese de voz em caxemir. Os nossos resultados demonstram que a adaptação supervisionada baseada em fluxo e consciente do script é crítica para TTS de baixos recursos em línguas sensíveis a diacríticos. O código e os dados estão disponíveis em: https://github.com/gaash-lab/Bolbosh.

English

Kashmiri is spoken by around 7 million people but remains critically underserved in speech technology, despite its official status and rich linguistic heritage. The lack of robust Text-to-Speech (TTS) systems limits digital accessibility and inclusive human-computer interaction for native speakers. In this work, we present the first dedicated open-source neural TTS system designed for Kashmiri. We show that zero-shot multilingual baselines trained for Indic languages fail to produce intelligible speech, achieving a Mean Opinion Score (MOS) of only 1.86, largely due to inadequate modeling of Perso-Arabic diacritics and language-specific phonotactics. To address these limitations, we propose Bolbosh, a supervised cross-lingual adaptation strategy based on Optimal Transport Conditional Flow Matching (OT-CFM) within the Matcha-TTS framework. This enables stable alignment under limited paired data. We further introduce a three-stage acoustic enhancement pipeline consisting of dereverberation, silence trimming, and loudness normalization to unify heterogeneous speech sources and stabilize alignment learning. The model vocabulary is expanded to explicitly encode Kashmiri graphemes, preserving fine-grained vowel distinctions. Our system achieves a MOS of 3.63 and a Mel-Cepstral Distortion (MCD) of 3.73, substantially outperforming multilingual baselines and establishing a new benchmark for Kashmiri speech synthesis. Our results demonstrate that script-aware and supervised flow-based adaptation are critical for low-resource TTS in diacritic-sensitive languages. Code and data are available at: https://github.com/gaash-lab/Bolbosh.