Ein datenzentrierter Rahmen zur Bewältigung phonetischer und prosodischer Herausforderungen in russischen Sprachgenerierungsmodellen
A Data-Centric Framework for Addressing Phonetic and Prosodic Challenges in Russian Speech Generative Models
July 17, 2025
papers.authors: Kirill Borodin, Nikita Vasiliev, Vasiliy Kudryavtsev, Maxim Maslov, Mikhail Gorodnichev, Oleg Rogov, Grach Mkrtchian
cs.AI
papers.abstract
Die russische Sprachsynthese stellt besondere Herausforderungen dar, darunter Vokalreduktion, Konsonantentönung, variable Betonungsmuster, Homographenmehrdeutigkeit und unnatürliche Intonation. Dieses Papier stellt Balalaika vor, einen neuartigen Datensatz, der mehr als 2.000 Stunden studioqualitativer russischer Sprache mit umfassenden textuellen Annotationen, einschließlich Interpunktion und Betonungsmarkierungen, umfasst. Experimentelle Ergebnisse zeigen, dass Modelle, die mit Balalaika trainiert wurden, sowohl in der Sprachsynthese als auch in Verbesserungsaufgaben deutlich besser abschneiden als Modelle, die mit bestehenden Datensätzen trainiert wurden. Wir erläutern den Aufbau des Datensatzes, die Annotationsmethodik und die Ergebnisse vergleichender Bewertungen.
English
Russian speech synthesis presents distinctive challenges, including vowel
reduction, consonant devoicing, variable stress patterns, homograph ambiguity,
and unnatural intonation. This paper introduces Balalaika, a novel dataset
comprising more than 2,000 hours of studio-quality Russian speech with
comprehensive textual annotations, including punctuation and stress markings.
Experimental results show that models trained on Balalaika significantly
outperform those trained on existing datasets in both speech synthesis and
enhancement tasks. We detail the dataset construction pipeline, annotation
methodology, and results of comparative evaluations.