Un Framework Centrato sui Dati per Affrontare le Sfide Fonetiche e Prosodiche nei Modelli Generativi di Voce Russa
A Data-Centric Framework for Addressing Phonetic and Prosodic Challenges in Russian Speech Generative Models
July 17, 2025
Autori: Kirill Borodin, Nikita Vasiliev, Vasiliy Kudryavtsev, Maxim Maslov, Mikhail Gorodnichev, Oleg Rogov, Grach Mkrtchian
cs.AI
Abstract
La sintesi vocale russa presenta sfide distintive, tra cui la riduzione vocalica, la devocalizzazione delle consonanti, i modelli di accento variabili, l'ambiguità degli omografi e l'intonazione innaturale. Questo articolo introduce Balalaika, un nuovo dataset che comprende oltre 2.000 ore di parlato russo di qualità da studio con annotazioni testuali complete, inclusa punteggiatura e marcature dell'accento. I risultati sperimentali mostrano che i modelli addestrati su Balalaika superano significativamente quelli addestrati su dataset esistenti sia nei compiti di sintesi vocale che di miglioramento. Descriviamo nel dettaglio la pipeline di costruzione del dataset, la metodologia di annotazione e i risultati delle valutazioni comparative.
English
Russian speech synthesis presents distinctive challenges, including vowel
reduction, consonant devoicing, variable stress patterns, homograph ambiguity,
and unnatural intonation. This paper introduces Balalaika, a novel dataset
comprising more than 2,000 hours of studio-quality Russian speech with
comprehensive textual annotations, including punctuation and stress markings.
Experimental results show that models trained on Balalaika significantly
outperform those trained on existing datasets in both speech synthesis and
enhancement tasks. We detail the dataset construction pipeline, annotation
methodology, and results of comparative evaluations.