ChatPaper.aiChatPaper

Een Data-Gecentreerd Raamwerk voor het Aanpakken van Fonetische en Prosodische Uitdagingen in Russische Spraakgeneratieve Modellen

A Data-Centric Framework for Addressing Phonetic and Prosodic Challenges in Russian Speech Generative Models

July 17, 2025
Auteurs: Kirill Borodin, Nikita Vasiliev, Vasiliy Kudryavtsev, Maxim Maslov, Mikhail Gorodnichev, Oleg Rogov, Grach Mkrtchian
cs.AI

Samenvatting

Russische spraaksynthese brengt unieke uitdagingen met zich mee, zoals klinkerreductie, stemhebbende medeklinkers, variabele klemtoonpatronen, homografische ambiguïteit en onnatuurlijke intonatie. Dit artikel introduceert Balalaika, een nieuwe dataset die meer dan 2.000 uur aan studio-kwaliteit Russische spraak bevat, vergezeld van uitgebreide tekstuele annotaties, inclusief interpunctie en klemtoonmarkeringen. Experimentele resultaten tonen aan dat modellen die getraind zijn op Balalaika aanzienlijk beter presteren dan modellen die getraind zijn op bestaande datasets, zowel in spraaksynthese als in verbeteringstaken. We beschrijven in detail de constructiepijplijn van de dataset, de annotatiemethodologie en de resultaten van vergelijkende evaluaties.
English
Russian speech synthesis presents distinctive challenges, including vowel reduction, consonant devoicing, variable stress patterns, homograph ambiguity, and unnatural intonation. This paper introduces Balalaika, a novel dataset comprising more than 2,000 hours of studio-quality Russian speech with comprehensive textual annotations, including punctuation and stress markings. Experimental results show that models trained on Balalaika significantly outperform those trained on existing datasets in both speech synthesis and enhancement tasks. We detail the dataset construction pipeline, annotation methodology, and results of comparative evaluations.
PDF523July 21, 2025