Bolbosh: 카슈미르어 음성 합성을 위한 스크립트 인식 흐름 매칭
Bolbosh: Script-Aware Flow Matching for Kashmiri Text-to-Speech
March 8, 2026
저자: Tajamul Ashraf, Burhaan Rasheed Zargar, Saeed Abdul Muizz, Ifrah Mushtaq, Nazima Mehdi, Iqra Altaf Gillani, Aadil Amin Kak, Janibul Bashir
cs.AI
초록
카슈미르어는 약 700만 명의 화자가 사용하지만 공식 언어 지위와 풍부한 언어적 전통에도 불구하고 음성 기술 분야에서 심각하게 지원이 부족한 실정이다. 강력한 텍스트-음성 변환(TTS) 시스템의 부재는 원어민의 디지털 접근성과 포용적 인간-컴퓨터 상호작용을 제한한다. 본 연구에서는 카슈미르어 최초의 전용 오픈소스 신경망 TTS 시스템을 제안한다. 인도계 언어용으로 훈련된 제로샷 다국어 기준 모델은 페르소-아랍식 발음 구별 기호 및 언어 특정 음운론적 구성을 충분히 모델링하지 못해 명료한 음성 생산에 실패하며 평균 의견 점수(MOS) 1.86에 그치는 것을 확인했다. 이러한 한계를 해결하기 위해 Matcha-TTS 프레임워크 내 최적 수송 조건부 흐름 매칭(OT-CFM) 기반의 지도형 교차 언어 적응 전략인 Bolbosh를 제안한다. 이는 제한된 짝지은 데이터 하에서 안정적인 정렬을 가능하게 한다. 더 나아가 잔향 제거, 무음 구간 정리, 음량 정규화로 구성된 3단계 음향 향상 파이프라인을 도입하여 이질적 음성 소스를 통일하고 정렬 학습을 안정화했다. 모델 어휘 집합은 카슈미르어 자소를 명시적으로 인코딩하도록 확장되어 세분화된 모음 차이를 보존한다. 우리 시스템은 MOS 3.63, 멜-켑스트럼 왜곡(MCD) 3.73을 달성하여 다국어 기준 모델을 크게 앞서며 카슈미르어 음성 합성의 새로운 벤치마크를 수립했다. 연구 결과는 발음 구별 기호에 민감한 언어의 저자원 TTS에 대해 문자 인식 및 지도형 흐름 기반 적응이 중요함을 입증한다. 코드와 데이터는 https://github.com/gaash-lab/Bolbosh에서 이용 가능하다.
English
Kashmiri is spoken by around 7 million people but remains critically underserved in speech technology, despite its official status and rich linguistic heritage. The lack of robust Text-to-Speech (TTS) systems limits digital accessibility and inclusive human-computer interaction for native speakers. In this work, we present the first dedicated open-source neural TTS system designed for Kashmiri. We show that zero-shot multilingual baselines trained for Indic languages fail to produce intelligible speech, achieving a Mean Opinion Score (MOS) of only 1.86, largely due to inadequate modeling of Perso-Arabic diacritics and language-specific phonotactics. To address these limitations, we propose Bolbosh, a supervised cross-lingual adaptation strategy based on Optimal Transport Conditional Flow Matching (OT-CFM) within the Matcha-TTS framework. This enables stable alignment under limited paired data. We further introduce a three-stage acoustic enhancement pipeline consisting of dereverberation, silence trimming, and loudness normalization to unify heterogeneous speech sources and stabilize alignment learning. The model vocabulary is expanded to explicitly encode Kashmiri graphemes, preserving fine-grained vowel distinctions. Our system achieves a MOS of 3.63 and a Mel-Cepstral Distortion (MCD) of 3.73, substantially outperforming multilingual baselines and establishing a new benchmark for Kashmiri speech synthesis. Our results demonstrate that script-aware and supervised flow-based adaptation are critical for low-resource TTS in diacritic-sensitive languages. Code and data are available at: https://github.com/gaash-lab/Bolbosh.