Bolbosh: Abbinamento di Flusso Consapevole dello Script per la Sintesi Vocale in Kashmir

Abstract

Il kashmiri è parlato da circa 7 milioni di persone, ma rimane gravemente sottoservito nelle tecnologie vocali, nonostante il suo status ufficiale e il ricco patrimonio linguistico. La mancanza di sistemi robusti di sintesi vocale (Text-to-Speech, TTS) limita l'accessibilità digitale e l'interazione uomo-computer inclusiva per i parlanti nativi. In questo lavoro, presentiamo il primo sistema neurale TTS open-source dedicato al kashmiri. Dimostriamo che i baseline multilingue zero-shot addestrati per le lingue indiane non riescono a produrre una voce intelligibile, raggiungendo un Mean Opinion Score (MOS) di soli 1.86, principalmente a causa di una modellazione inadeguata dei segni diacritici perso-arabi e della fonotattica specifica della lingua. Per affrontare queste limitazioni, proponiamo Bolbosh, una strategia di adattamento cross-lingue supervisionata basata sull'Optimal Transport Conditional Flow Matching (OT-CFM) all'interno del framework Matcha-TTS. Ciò consente un allineamento stabile con dati accoppiati limitati. Introduciamo inoltre una pipeline di miglioramento acustico in tre fasi, composta da dereverberazione, rimozione dei silenzi e normalizzazione del volume, per unificare fonti vocali eterogenee e stabilizzare l'apprendimento dell'allineamento. Il vocabolario del modello è espanso per codificare esplicitamente i grafemi del kashmiri, preservando le distinzioni granulari tra vocali. Il nostro sistema raggiunge un MOS di 3.63 e un Mel-Cepstral Distortion (MCD) di 3.73, superando sostanzialmente i baseline multilingue e stabilendo un nuovo punto di riferimento per la sintesi vocale in kashmiri. I nostri risultati dimostrano che l'adattamento supervisionato basato su flussi e consapevole della scrittura è fondamentale per il TTS a risorse limitate nelle lingue sensibili ai diacritici. Il codice e i dati sono disponibili all'indirizzo: https://github.com/gaash-lab/Bolbosh.

English

Kashmiri is spoken by around 7 million people but remains critically underserved in speech technology, despite its official status and rich linguistic heritage. The lack of robust Text-to-Speech (TTS) systems limits digital accessibility and inclusive human-computer interaction for native speakers. In this work, we present the first dedicated open-source neural TTS system designed for Kashmiri. We show that zero-shot multilingual baselines trained for Indic languages fail to produce intelligible speech, achieving a Mean Opinion Score (MOS) of only 1.86, largely due to inadequate modeling of Perso-Arabic diacritics and language-specific phonotactics. To address these limitations, we propose Bolbosh, a supervised cross-lingual adaptation strategy based on Optimal Transport Conditional Flow Matching (OT-CFM) within the Matcha-TTS framework. This enables stable alignment under limited paired data. We further introduce a three-stage acoustic enhancement pipeline consisting of dereverberation, silence trimming, and loudness normalization to unify heterogeneous speech sources and stabilize alignment learning. The model vocabulary is expanded to explicitly encode Kashmiri graphemes, preserving fine-grained vowel distinctions. Our system achieves a MOS of 3.63 and a Mel-Cepstral Distortion (MCD) of 3.73, substantially outperforming multilingual baselines and establishing a new benchmark for Kashmiri speech synthesis. Our results demonstrate that script-aware and supervised flow-based adaptation are critical for low-resource TTS in diacritic-sensitive languages. Code and data are available at: https://github.com/gaash-lab/Bolbosh.

Bolbosh: Abbinamento di Flusso Consapevole dello Script per la Sintesi Vocale in Kashmir

Bolbosh: Script-Aware Flow Matching for Kashmiri Text-to-Speech

Abstract

Support