Un Cadre Centré sur les Données pour Aborder les Défis Phonétiques et Prosodiques dans les Modèles Génératifs de Parole Russe
A Data-Centric Framework for Addressing Phonetic and Prosodic Challenges in Russian Speech Generative Models
July 17, 2025
papers.authors: Kirill Borodin, Nikita Vasiliev, Vasiliy Kudryavtsev, Maxim Maslov, Mikhail Gorodnichev, Oleg Rogov, Grach Mkrtchian
cs.AI
papers.abstract
La synthèse vocale en russe présente des défis spécifiques, notamment la réduction des voyelles, la dévoisement des consonnes, les schémas d'accentuation variables, l'ambiguïté des homographes et une intonation peu naturelle. Cet article présente Balalaika, un nouveau jeu de données comprenant plus de 2 000 heures de parole russe de qualité studio, accompagnées d'annotations textuelles complètes, incluant la ponctuation et les marques d'accentuation. Les résultats expérimentaux montrent que les modèles entraînés sur Balalaika surpassent significativement ceux entraînés sur les jeux de données existants, tant pour la synthèse vocale que pour les tâches d'amélioration. Nous détaillons le pipeline de construction du jeu de données, la méthodologie d'annotation et les résultats des évaluations comparatives.
English
Russian speech synthesis presents distinctive challenges, including vowel
reduction, consonant devoicing, variable stress patterns, homograph ambiguity,
and unnatural intonation. This paper introduces Balalaika, a novel dataset
comprising more than 2,000 hours of studio-quality Russian speech with
comprehensive textual annotations, including punctuation and stress markings.
Experimental results show that models trained on Balalaika significantly
outperform those trained on existing datasets in both speech synthesis and
enhancement tasks. We detail the dataset construction pipeline, annotation
methodology, and results of comparative evaluations.