MulliVC: サイクル一貫性を備えた多言語音声変換
MulliVC: Multi-lingual Voice Conversion With Cycle Consistency
August 8, 2024
著者: Jiawei Huang, Chen Zhang, Yi Ren, Ziyue Jiang, Zhenhui Ye, Jinglin Liu, Jinzheng He, Xiang Yin, Zhou Zhao
cs.AI
要旨
音声変換は、元の話者の音声を対象話者に似せるように変更しつつ、元の音声内容を保持することを目的としています。近年、音声変換において顕著な進展が見られるものの、多言語音声変換(単一言語および異言語間のシナリオを含む)はまだ十分に研究されていません。これには主に2つの課題があります:1)言語間でのプロソディーや発音習慣の大きな変動性、2)同一話者による多言語ペアデータの希少性です。本論文では、MulliVCという新しい音声変換システムを提案します。このシステムは、音色のみを変換し、元の内容とソース言語のプロソディーを保持し、多言語ペアデータを必要としません。具体的には、MulliVCの各トレーニングステップは3つのサブステップで構成されます:ステップ1では、単一言語音声データを用いてモデルをトレーニングします。その後、ステップ2と3では、バックトランスレーションに着想を得て、同一話者による多言語データがない状況で、音色とその他の情報(内容、プロソディー、その他の言語関連情報)を分離するための循環プロセスを構築します。客観的および主観的な結果の両方から、MulliVCが単一言語および異言語間の両方のコンテキストにおいて他の手法を大幅に上回ることが示されており、システムの有効性と循環一貫性を伴う3ステップアプローチの実現可能性が実証されています。音声サンプルはデモページ(mullivc.github.io)で確認できます。
English
Voice conversion aims to modify the source speaker's voice to resemble the
target speaker while preserving the original speech content. Despite notable
advancements in voice conversion these days, multi-lingual voice conversion
(including both monolingual and cross-lingual scenarios) has yet to be
extensively studied. It faces two main challenges: 1) the considerable
variability in prosody and articulation habits across languages; and 2) the
rarity of paired multi-lingual datasets from the same speaker. In this paper,
we propose MulliVC, a novel voice conversion system that only converts timbre
and keeps original content and source language prosody without multi-lingual
paired data. Specifically, each training step of MulliVC contains three
substeps: In step one the model is trained with monolingual speech data; then,
steps two and three take inspiration from back translation, construct a
cyclical process to disentangle the timbre and other information (content,
prosody, and other language-related information) in the absence of
multi-lingual data from the same speaker. Both objective and subjective results
indicate that MulliVC significantly surpasses other methods in both monolingual
and cross-lingual contexts, demonstrating the system's efficacy and the
viability of the three-step approach with cycle consistency. Audio samples can
be found on our demo page (mullivc.github.io).Summary
AI-Generated Summary