Een Data-Gecentreerd Raamwerk voor het Aanpakken van Fonetische en Prosodische Uitdagingen in Russische Spraakgeneratieve Modellen
A Data-Centric Framework for Addressing Phonetic and Prosodic Challenges in Russian Speech Generative Models
July 17, 2025
Auteurs: Kirill Borodin, Nikita Vasiliev, Vasiliy Kudryavtsev, Maxim Maslov, Mikhail Gorodnichev, Oleg Rogov, Grach Mkrtchian
cs.AI
Samenvatting
Russische spraaksynthese brengt unieke uitdagingen met zich mee, zoals klinkerreductie, stemhebbende medeklinkers, variabele klemtoonpatronen, homografische ambiguïteit en onnatuurlijke intonatie. Dit artikel introduceert Balalaika, een nieuwe dataset die meer dan 2.000 uur aan studio-kwaliteit Russische spraak bevat, vergezeld van uitgebreide tekstuele annotaties, inclusief interpunctie en klemtoonmarkeringen. Experimentele resultaten tonen aan dat modellen die getraind zijn op Balalaika aanzienlijk beter presteren dan modellen die getraind zijn op bestaande datasets, zowel in spraaksynthese als in verbeteringstaken. We beschrijven in detail de constructiepijplijn van de dataset, de annotatiemethodologie en de resultaten van vergelijkende evaluaties.
English
Russian speech synthesis presents distinctive challenges, including vowel
reduction, consonant devoicing, variable stress patterns, homograph ambiguity,
and unnatural intonation. This paper introduces Balalaika, a novel dataset
comprising more than 2,000 hours of studio-quality Russian speech with
comprehensive textual annotations, including punctuation and stress markings.
Experimental results show that models trained on Balalaika significantly
outperform those trained on existing datasets in both speech synthesis and
enhancement tasks. We detail the dataset construction pipeline, annotation
methodology, and results of comparative evaluations.