ChatPaper.aiChatPaper

MulliVC: Conversión de Voz Multilingüe con Consistencia de Ciclo

MulliVC: Multi-lingual Voice Conversion With Cycle Consistency

August 8, 2024
Autores: Jiawei Huang, Chen Zhang, Yi Ren, Ziyue Jiang, Zhenhui Ye, Jinglin Liu, Jinzheng He, Xiang Yin, Zhou Zhao
cs.AI

Resumen

La conversión de voz tiene como objetivo modificar la voz del hablante de origen para que se asemeje al hablante de destino, preservando al mismo tiempo el contenido original del discurso. A pesar de los notables avances en la conversión de voz en la actualidad, la conversión de voz multilingüe (que incluye escenarios tanto monolingües como cruzados) aún no ha sido estudiada extensamente. Enfrenta dos desafíos principales: 1) la considerable variabilidad en la prosodia y los hábitos de articulación entre idiomas; y 2) la escasez de conjuntos de datos multilingües emparejados del mismo hablante. En este documento, proponemos MulliVC, un novedoso sistema de conversión de voz que solo convierte el timbre y conserva el contenido original y la prosodia del idioma de origen sin datos emparejados multilingües. Específicamente, cada paso de entrenamiento de MulliVC consta de tres subpasos: en el primer paso, el modelo se entrena con datos de habla monolingües; luego, los pasos dos y tres se inspiran en la traducción inversa, construyen un proceso cíclico para desentrañar el timbre y otra información (contenido, prosodia y otra información relacionada con el idioma) en ausencia de datos multilingües del mismo hablante. Tanto los resultados objetivos como subjetivos indican que MulliVC supera significativamente a otros métodos tanto en contextos monolingües como cruzados, demostrando la eficacia del sistema y la viabilidad del enfoque de tres pasos con consistencia cíclica. Se pueden encontrar muestras de audio en nuestra página de demostración (mullivc.github.io).
English
Voice conversion aims to modify the source speaker's voice to resemble the target speaker while preserving the original speech content. Despite notable advancements in voice conversion these days, multi-lingual voice conversion (including both monolingual and cross-lingual scenarios) has yet to be extensively studied. It faces two main challenges: 1) the considerable variability in prosody and articulation habits across languages; and 2) the rarity of paired multi-lingual datasets from the same speaker. In this paper, we propose MulliVC, a novel voice conversion system that only converts timbre and keeps original content and source language prosody without multi-lingual paired data. Specifically, each training step of MulliVC contains three substeps: In step one the model is trained with monolingual speech data; then, steps two and three take inspiration from back translation, construct a cyclical process to disentangle the timbre and other information (content, prosody, and other language-related information) in the absence of multi-lingual data from the same speaker. Both objective and subjective results indicate that MulliVC significantly surpasses other methods in both monolingual and cross-lingual contexts, demonstrating the system's efficacy and the viability of the three-step approach with cycle consistency. Audio samples can be found on our demo page (mullivc.github.io).
PDF82November 28, 2024