ChatPaper.aiChatPaper

Um Framework Centrado em Dados para Abordar Desafios Fonéticos e Prosódicos em Modelos Gerativos de Fala em Russo

A Data-Centric Framework for Addressing Phonetic and Prosodic Challenges in Russian Speech Generative Models

July 17, 2025
Autores: Kirill Borodin, Nikita Vasiliev, Vasiliy Kudryavtsev, Maxim Maslov, Mikhail Gorodnichev, Oleg Rogov, Grach Mkrtchian
cs.AI

Resumo

A síntese de fala em russo apresenta desafios distintos, incluindo redução vocálica, ensurdecimento de consoantes, padrões variáveis de acentuação, ambiguidade de homógrafos e entonação não natural. Este artigo apresenta Balalaika, um novo conjunto de dados que compreende mais de 2.000 horas de fala em russo de qualidade de estúdio, com anotações textuais abrangentes, incluindo pontuação e marcações de acentuação. Resultados experimentais mostram que modelos treinados com Balalaika superam significativamente aqueles treinados em conjuntos de dados existentes, tanto em tarefas de síntese de fala quanto de aprimoramento. Detalhamos o pipeline de construção do conjunto de dados, a metodologia de anotação e os resultados de avaliações comparativas.
English
Russian speech synthesis presents distinctive challenges, including vowel reduction, consonant devoicing, variable stress patterns, homograph ambiguity, and unnatural intonation. This paper introduces Balalaika, a novel dataset comprising more than 2,000 hours of studio-quality Russian speech with comprehensive textual annotations, including punctuation and stress markings. Experimental results show that models trained on Balalaika significantly outperform those trained on existing datasets in both speech synthesis and enhancement tasks. We detail the dataset construction pipeline, annotation methodology, and results of comparative evaluations.
PDF503July 21, 2025