ChatPaper.aiChatPaper

Un Marco Centrado en los Datos para Abordar los Desafíos Fonéticos y Prosódicos en los Modelos Generativos de Habla Rusa

A Data-Centric Framework for Addressing Phonetic and Prosodic Challenges in Russian Speech Generative Models

July 17, 2025
Autores: Kirill Borodin, Nikita Vasiliev, Vasiliy Kudryavtsev, Maxim Maslov, Mikhail Gorodnichev, Oleg Rogov, Grach Mkrtchian
cs.AI

Resumen

La síntesis de voz en ruso presenta desafíos distintivos, como la reducción vocálica, la desonorización de consonantes, patrones de acentuación variables, ambigüedad de homógrafos y entonación poco natural. Este artículo presenta Balalaika, un nuevo conjunto de datos que comprende más de 2,000 horas de voz en ruso de calidad de estudio con anotaciones textuales exhaustivas, incluyendo puntuación y marcas de acentuación. Los resultados experimentales muestran que los modelos entrenados con Balalaika superan significativamente a aquellos entrenados con conjuntos de datos existentes en tareas de síntesis y mejora de voz. Detallamos el proceso de construcción del conjunto de datos, la metodología de anotación y los resultados de evaluaciones comparativas.
English
Russian speech synthesis presents distinctive challenges, including vowel reduction, consonant devoicing, variable stress patterns, homograph ambiguity, and unnatural intonation. This paper introduces Balalaika, a novel dataset comprising more than 2,000 hours of studio-quality Russian speech with comprehensive textual annotations, including punctuation and stress markings. Experimental results show that models trained on Balalaika significantly outperform those trained on existing datasets in both speech synthesis and enhancement tasks. We detail the dataset construction pipeline, annotation methodology, and results of comparative evaluations.
PDF523July 21, 2025