Um Framework Centrado em Dados para Abordar Desafios Fonéticos e Prosódicos em Modelos Gerativos de Fala em Russo
A Data-Centric Framework for Addressing Phonetic and Prosodic Challenges in Russian Speech Generative Models
July 17, 2025
Autores: Kirill Borodin, Nikita Vasiliev, Vasiliy Kudryavtsev, Maxim Maslov, Mikhail Gorodnichev, Oleg Rogov, Grach Mkrtchian
cs.AI
Resumo
A síntese de fala em russo apresenta desafios distintos, incluindo redução vocálica, ensurdecimento de consoantes, padrões variáveis de acentuação, ambiguidade de homógrafos e entonação não natural. Este artigo apresenta Balalaika, um novo conjunto de dados que compreende mais de 2.000 horas de fala em russo de qualidade de estúdio, com anotações textuais abrangentes, incluindo pontuação e marcações de acentuação. Resultados experimentais mostram que modelos treinados com Balalaika superam significativamente aqueles treinados em conjuntos de dados existentes, tanto em tarefas de síntese de fala quanto de aprimoramento. Detalhamos o pipeline de construção do conjunto de dados, a metodologia de anotação e os resultados de avaliações comparativas.
English
Russian speech synthesis presents distinctive challenges, including vowel
reduction, consonant devoicing, variable stress patterns, homograph ambiguity,
and unnatural intonation. This paper introduces Balalaika, a novel dataset
comprising more than 2,000 hours of studio-quality Russian speech with
comprehensive textual annotations, including punctuation and stress markings.
Experimental results show that models trained on Balalaika significantly
outperform those trained on existing datasets in both speech synthesis and
enhancement tasks. We detail the dataset construction pipeline, annotation
methodology, and results of comparative evaluations.