ChatPaper.aiChatPaper

MulliVC : Conversion vocale multilingue avec cohérence cyclique

MulliVC: Multi-lingual Voice Conversion With Cycle Consistency

August 8, 2024
Auteurs: Jiawei Huang, Chen Zhang, Yi Ren, Ziyue Jiang, Zhenhui Ye, Jinglin Liu, Jinzheng He, Xiang Yin, Zhou Zhao
cs.AI

Résumé

La conversion vocale vise à modifier la voix du locuteur source pour qu'elle ressemble à celle du locuteur cible tout en préservant le contenu original du discours. Malgré des avancées notables dans le domaine de la conversion vocale ces dernières années, la conversion vocale multilingue (incluant à la fois les scénarios monolingues et translinguistiques) n'a pas encore été largement étudiée. Elle fait face à deux défis principaux : 1) la variabilité considérable dans la prosodie et les habitudes d'articulation entre les langues ; et 2) la rareté des ensembles de données multilingues appariées provenant du même locuteur. Dans cet article, nous proposons MulliVC, un nouveau système de conversion vocale qui ne convertit que le timbre et conserve le contenu original ainsi que la prosodie de la langue source, sans nécessiter de données multilingues appariées. Plus précisément, chaque étape d'entraînement de MulliVC comprend trois sous-étapes : dans la première étape, le modèle est entraîné avec des données vocales monolingues ; puis, les étapes deux et trois s'inspirent de la traduction inverse, construisant un processus cyclique pour dissocier le timbre des autres informations (contenu, prosodie et autres informations liées à la langue) en l'absence de données multilingues provenant du même locuteur. Les résultats objectifs et subjectifs indiquent que MulliVC surpasse significativement les autres méthodes dans les contextes monolingues et translinguistiques, démontrant l'efficacité du système et la viabilité de l'approche en trois étapes avec cohérence cyclique. Des échantillons audio sont disponibles sur notre page de démonstration (mullivc.github.io).
English
Voice conversion aims to modify the source speaker's voice to resemble the target speaker while preserving the original speech content. Despite notable advancements in voice conversion these days, multi-lingual voice conversion (including both monolingual and cross-lingual scenarios) has yet to be extensively studied. It faces two main challenges: 1) the considerable variability in prosody and articulation habits across languages; and 2) the rarity of paired multi-lingual datasets from the same speaker. In this paper, we propose MulliVC, a novel voice conversion system that only converts timbre and keeps original content and source language prosody without multi-lingual paired data. Specifically, each training step of MulliVC contains three substeps: In step one the model is trained with monolingual speech data; then, steps two and three take inspiration from back translation, construct a cyclical process to disentangle the timbre and other information (content, prosody, and other language-related information) in the absence of multi-lingual data from the same speaker. Both objective and subjective results indicate that MulliVC significantly surpasses other methods in both monolingual and cross-lingual contexts, demonstrating the system's efficacy and the viability of the three-step approach with cycle consistency. Audio samples can be found on our demo page (mullivc.github.io).

Summary

AI-Generated Summary

PDF82November 28, 2024