ロシア語音声生成モデルにおける音声的・韻律的課題に対処するためのデータ中心フレームワーク
A Data-Centric Framework for Addressing Phonetic and Prosodic Challenges in Russian Speech Generative Models
July 17, 2025
著者: Kirill Borodin, Nikita Vasiliev, Vasiliy Kudryavtsev, Maxim Maslov, Mikhail Gorodnichev, Oleg Rogov, Grach Mkrtchian
cs.AI
要旨
ロシア語音声合成には、母音の弱化、子音の無声化、可変的なアクセントパターン、同綴異義語の曖昧性、不自然なイントネーションなど、独特の課題が存在します。本論文では、スタジオ品質のロシア語音声2,000時間以上を網羅し、句読点やアクセント記号を含む包括的なテキスト注釈を備えた新しいデータセット「Balalaika」を紹介します。実験結果から、Balalaikaで訓練されたモデルは、既存のデータセットで訓練されたモデルを音声合成と音声強調タスクの両方において大幅に上回ることが示されています。本論文では、データセット構築のパイプライン、注釈方法論、比較評価の結果について詳細に説明します。
English
Russian speech synthesis presents distinctive challenges, including vowel
reduction, consonant devoicing, variable stress patterns, homograph ambiguity,
and unnatural intonation. This paper introduces Balalaika, a novel dataset
comprising more than 2,000 hours of studio-quality Russian speech with
comprehensive textual annotations, including punctuation and stress markings.
Experimental results show that models trained on Balalaika significantly
outperform those trained on existing datasets in both speech synthesis and
enhancement tasks. We detail the dataset construction pipeline, annotation
methodology, and results of comparative evaluations.