Een Data-Gecentreerd Raamwerk voor het Aanpakken van Fonetische en Prosodische Uitdagingen in Russische Spraakgeneratieve Modellen

Samenvatting

Russische spraaksynthese brengt unieke uitdagingen met zich mee, zoals klinkerreductie, stemhebbende medeklinkers, variabele klemtoonpatronen, homografische ambiguïteit en onnatuurlijke intonatie. Dit artikel introduceert Balalaika, een nieuwe dataset die meer dan 2.000 uur aan studio-kwaliteit Russische spraak bevat, vergezeld van uitgebreide tekstuele annotaties, inclusief interpunctie en klemtoonmarkeringen. Experimentele resultaten tonen aan dat modellen die getraind zijn op Balalaika aanzienlijk beter presteren dan modellen die getraind zijn op bestaande datasets, zowel in spraaksynthese als in verbeteringstaken. We beschrijven in detail de constructiepijplijn van de dataset, de annotatiemethodologie en de resultaten van vergelijkende evaluaties.

English

Russian speech synthesis presents distinctive challenges, including vowel reduction, consonant devoicing, variable stress patterns, homograph ambiguity, and unnatural intonation. This paper introduces Balalaika, a novel dataset comprising more than 2,000 hours of studio-quality Russian speech with comprehensive textual annotations, including punctuation and stress markings. Experimental results show that models trained on Balalaika significantly outperform those trained on existing datasets in both speech synthesis and enhancement tasks. We detail the dataset construction pipeline, annotation methodology, and results of comparative evaluations.

Een Data-Gecentreerd Raamwerk voor het Aanpakken van Fonetische en Prosodische Uitdagingen in Russische Spraakgeneratieve Modellen

A Data-Centric Framework for Addressing Phonetic and Prosodic Challenges in Russian Speech Generative Models

Samenvatting

Support