Фреймворк, ориентированный на данные, для решения фонетических и просодических задач в генеративных моделях русской речи
A Data-Centric Framework for Addressing Phonetic and Prosodic Challenges in Russian Speech Generative Models
July 17, 2025
Авторы: Kirill Borodin, Nikita Vasiliev, Vasiliy Kudryavtsev, Maxim Maslov, Mikhail Gorodnichev, Oleg Rogov, Grach Mkrtchian
cs.AI
Аннотация
Синтез русской речи представляет собой уникальные задачи, включая редукцию гласных, оглушение согласных, вариативные модели ударения, неоднозначность омографов и неестественную интонацию. В данной статье представлен Balalaika — новый набор данных, содержащий более 2000 часов студийного качества русской речи с подробными текстовыми аннотациями, включая пунктуацию и обозначения ударений. Экспериментальные результаты показывают, что модели, обученные на Balalaika, значительно превосходят модели, обученные на существующих наборах данных, как в задачах синтеза речи, так и в задачах её улучшения. Мы подробно описываем процесс создания набора данных, методологию аннотирования и результаты сравнительных оценок.
English
Russian speech synthesis presents distinctive challenges, including vowel
reduction, consonant devoicing, variable stress patterns, homograph ambiguity,
and unnatural intonation. This paper introduces Balalaika, a novel dataset
comprising more than 2,000 hours of studio-quality Russian speech with
comprehensive textual annotations, including punctuation and stress markings.
Experimental results show that models trained on Balalaika significantly
outperform those trained on existing datasets in both speech synthesis and
enhancement tasks. We detail the dataset construction pipeline, annotation
methodology, and results of comparative evaluations.