ChatPaper.aiChatPaper

러시아어 음성 생성 모델의 음성학적 및 운율적 문제 해결을 위한 데이터 중심 프레임워크

A Data-Centric Framework for Addressing Phonetic and Prosodic Challenges in Russian Speech Generative Models

July 17, 2025
저자: Kirill Borodin, Nikita Vasiliev, Vasiliy Kudryavtsev, Maxim Maslov, Mikhail Gorodnichev, Oleg Rogov, Grach Mkrtchian
cs.AI

초록

러시아어 음성 합성은 모음 약화, 자음 무성음화, 가변적인 강세 패턴, 동형이의어 모호성, 부자연스러운 억양 등 독특한 과제를 안고 있습니다. 본 논문은 2,000시간 이상의 스튜디오 품질의 러시아어 음성과 구두점 및 강세 표시를 포함한 포괄적인 텍스트 주석으로 구성된 새로운 데이터셋인 Balalaika를 소개합니다. 실험 결과, Balalaika로 훈련된 모델은 기존 데이터셋으로 훈련된 모델보다 음성 합성 및 향상 작업에서 크게 우수한 성능을 보였습니다. 우리는 데이터셋 구축 파이프라인, 주석 방법론, 그리고 비교 평가 결과를 상세히 설명합니다.
English
Russian speech synthesis presents distinctive challenges, including vowel reduction, consonant devoicing, variable stress patterns, homograph ambiguity, and unnatural intonation. This paper introduces Balalaika, a novel dataset comprising more than 2,000 hours of studio-quality Russian speech with comprehensive textual annotations, including punctuation and stress markings. Experimental results show that models trained on Balalaika significantly outperform those trained on existing datasets in both speech synthesis and enhancement tasks. We detail the dataset construction pipeline, annotation methodology, and results of comparative evaluations.
PDF503July 21, 2025