Um Framework Centrado em Dados para Abordar Desafios Fonéticos e Prosódicos em Modelos Gerativos de Fala em Russo

Resumo

A síntese de fala em russo apresenta desafios distintos, incluindo redução vocálica, ensurdecimento de consoantes, padrões variáveis de acentuação, ambiguidade de homógrafos e entonação não natural. Este artigo apresenta Balalaika, um novo conjunto de dados que compreende mais de 2.000 horas de fala em russo de qualidade de estúdio, com anotações textuais abrangentes, incluindo pontuação e marcações de acentuação. Resultados experimentais mostram que modelos treinados com Balalaika superam significativamente aqueles treinados em conjuntos de dados existentes, tanto em tarefas de síntese de fala quanto de aprimoramento. Detalhamos o pipeline de construção do conjunto de dados, a metodologia de anotação e os resultados de avaliações comparativas.

English

Russian speech synthesis presents distinctive challenges, including vowel reduction, consonant devoicing, variable stress patterns, homograph ambiguity, and unnatural intonation. This paper introduces Balalaika, a novel dataset comprising more than 2,000 hours of studio-quality Russian speech with comprehensive textual annotations, including punctuation and stress markings. Experimental results show that models trained on Balalaika significantly outperform those trained on existing datasets in both speech synthesis and enhancement tasks. We detail the dataset construction pipeline, annotation methodology, and results of comparative evaluations.

Um Framework Centrado em Dados para Abordar Desafios Fonéticos e Prosódicos em Modelos Gerativos de Fala em Russo

A Data-Centric Framework for Addressing Phonetic and Prosodic Challenges in Russian Speech Generative Models

Resumo

Support