ChatPaper.aiChatPaper

MulliVC: Mehrsprachige Sprachkonvertierung mit Zykluskonsistenz

MulliVC: Multi-lingual Voice Conversion With Cycle Consistency

August 8, 2024
Autoren: Jiawei Huang, Chen Zhang, Yi Ren, Ziyue Jiang, Zhenhui Ye, Jinglin Liu, Jinzheng He, Xiang Yin, Zhou Zhao
cs.AI

Zusammenfassung

Die Sprachkonvertierung zielt darauf ab, die Stimme des Ausgangssprechers so zu verändern, dass sie der des Zielsprechers ähnelt, während der ursprüngliche Sprachinhalt erhalten bleibt. Trotz bemerkenswerter Fortschritte bei der Sprachkonvertierung in der heutigen Zeit wurde die mehrsprachige Sprachkonvertierung (einschließlich sowohl monolingualer als auch cross-lingualer Szenarien) noch nicht umfassend untersucht. Sie steht vor zwei Hauptproblemen: 1) der erheblichen Variabilität in Prosodie und Artikulationsgewohnheiten zwischen Sprachen; und 2) der Seltenheit von gepaarten mehrsprachigen Datensätzen vom selben Sprecher. In diesem Paper schlagen wir MulliVC vor, ein neuartiges Sprachkonvertierungssystem, das nur die Klangfarbe umwandelt und den ursprünglichen Inhalt sowie die Prosodie der Ausgangssprache ohne mehrsprachige gepaarte Daten beibehält. Speziell besteht jeder Trainingsschritt von MulliVC aus drei Unterabschnitten: Im ersten Schritt wird das Modell mit monolingualen Sprachdaten trainiert; dann nehmen die Schritte zwei und drei Anleihen beim Rückübersetzen, um einen zyklischen Prozess zu konstruieren, der die Klangfarbe und andere Informationen (Inhalt, Prosodie und andere sprachbezogene Informationen) ohne mehrsprachige Daten vom selben Sprecher entwirrt. Sowohl objektive als auch subjektive Ergebnisse zeigen, dass MulliVC sowohl in monolingualen als auch in cross-lingualen Kontexten signifikant andere Methoden übertrifft, was die Wirksamkeit des Systems und die Durchführbarkeit des dreistufigen Ansatzes mit Zykluskonsistenz demonstriert. Audio-Beispiele finden Sie auf unserer Demo-Seite (mullivc.github.io).
English
Voice conversion aims to modify the source speaker's voice to resemble the target speaker while preserving the original speech content. Despite notable advancements in voice conversion these days, multi-lingual voice conversion (including both monolingual and cross-lingual scenarios) has yet to be extensively studied. It faces two main challenges: 1) the considerable variability in prosody and articulation habits across languages; and 2) the rarity of paired multi-lingual datasets from the same speaker. In this paper, we propose MulliVC, a novel voice conversion system that only converts timbre and keeps original content and source language prosody without multi-lingual paired data. Specifically, each training step of MulliVC contains three substeps: In step one the model is trained with monolingual speech data; then, steps two and three take inspiration from back translation, construct a cyclical process to disentangle the timbre and other information (content, prosody, and other language-related information) in the absence of multi-lingual data from the same speaker. Both objective and subjective results indicate that MulliVC significantly surpasses other methods in both monolingual and cross-lingual contexts, demonstrating the system's efficacy and the viability of the three-step approach with cycle consistency. Audio samples can be found on our demo page (mullivc.github.io).

Summary

AI-Generated Summary

PDF82November 28, 2024