ChatPaper.aiChatPaper

MulliVC: Conversão de Voz Multilíngue com Consistência de Ciclo

MulliVC: Multi-lingual Voice Conversion With Cycle Consistency

August 8, 2024
Autores: Jiawei Huang, Chen Zhang, Yi Ren, Ziyue Jiang, Zhenhui Ye, Jinglin Liu, Jinzheng He, Xiang Yin, Zhou Zhao
cs.AI

Resumo

A conversão de voz tem como objetivo modificar a voz do locutor de origem para se assemelhar ao locutor de destino, preservando o conteúdo original do discurso. Apesar dos avanços notáveis na conversão de voz nos dias de hoje, a conversão de voz multilíngue (incluindo cenários monolíngues e cruzados) ainda não foi extensivamente estudada. Enfrenta dois desafios principais: 1) a considerável variabilidade na prosódia e nos hábitos de articulação entre idiomas; e 2) a raridade de conjuntos de dados multilíngues emparelhados do mesmo locutor. Neste artigo, propomos o MulliVC, um novo sistema de conversão de voz que apenas converte o timbre e mantém o conteúdo original e a prosódia do idioma de origem sem dados emparelhados multilíngues. Especificamente, cada etapa de treinamento do MulliVC contém três subetapas: Na primeira etapa, o modelo é treinado com dados de fala monolíngues; em seguida, as etapas dois e três se inspiram na tradução reversa, construindo um processo cíclico para desvendar o timbre e outras informações (conteúdo, prosódia e outras informações relacionadas ao idioma) na ausência de dados multilíngues do mesmo locutor. Tanto os resultados objetivos quanto subjetivos indicam que o MulliVC supera significativamente outros métodos em contextos monolíngues e multilíngues, demonstrando a eficácia do sistema e a viabilidade da abordagem de três etapas com consistência cíclica. Amostras de áudio podem ser encontradas em nossa página de demonstração (mullivc.github.io).
English
Voice conversion aims to modify the source speaker's voice to resemble the target speaker while preserving the original speech content. Despite notable advancements in voice conversion these days, multi-lingual voice conversion (including both monolingual and cross-lingual scenarios) has yet to be extensively studied. It faces two main challenges: 1) the considerable variability in prosody and articulation habits across languages; and 2) the rarity of paired multi-lingual datasets from the same speaker. In this paper, we propose MulliVC, a novel voice conversion system that only converts timbre and keeps original content and source language prosody without multi-lingual paired data. Specifically, each training step of MulliVC contains three substeps: In step one the model is trained with monolingual speech data; then, steps two and three take inspiration from back translation, construct a cyclical process to disentangle the timbre and other information (content, prosody, and other language-related information) in the absence of multi-lingual data from the same speaker. Both objective and subjective results indicate that MulliVC significantly surpasses other methods in both monolingual and cross-lingual contexts, demonstrating the system's efficacy and the viability of the three-step approach with cycle consistency. Audio samples can be found on our demo page (mullivc.github.io).

Summary

AI-Generated Summary

PDF82November 28, 2024