ChatPaper.aiChatPaper

MulliVC: Мультиязычное преобразование голоса с циклической последовательностью

MulliVC: Multi-lingual Voice Conversion With Cycle Consistency

August 8, 2024
Авторы: Jiawei Huang, Chen Zhang, Yi Ren, Ziyue Jiang, Zhenhui Ye, Jinglin Liu, Jinzheng He, Xiang Yin, Zhou Zhao
cs.AI

Аннотация

Конверсия голоса направлена на изменение голоса исходного диктора так, чтобы он напоминал голос целевого диктора, сохраняя при этом оригинальное речевое содержание. Несмотря на значительные достижения в области конверсии голоса в наши дни, мультиязычная конверсия голоса (включая как одноязычные, так и межъязычные сценарии) до сих пор не получила должного изучения. Она сталкивается с двумя основными проблемами: 1) значительной изменчивостью в просодии и артикуляционных привычках между языками; и 2) редкостью парных мультиязычных наборов данных от одного и того же диктора. В данной статье мы предлагаем MulliVC, новую систему конверсии голоса, которая изменяет только тембр и сохраняет оригинальное содержание и просодию исходного языка без наличия парных мультиязычных данных. Конкретно, каждый этап обучения MulliVC содержит три подэтапа: на первом этапе модель обучается на одноязычных речевых данных; затем второй и третий этапы черпают вдохновение из обратного перевода, создают циклический процесс для разъединения тембра и другой информации (содержание, просодия и другая языковая информация) в отсутствие мультиязычных данных от одного и того же диктора. Как объективные, так и субъективные результаты показывают, что MulliVC значительно превосходит другие методы как в одноязычных, так и в межъязычных контекстах, демонстрируя эффективность системы и жизнеспособность трехэтапного подхода с циклической последовательностью. Аудио образцы можно найти на нашей демонстрационной странице (mullivc.github.io).
English
Voice conversion aims to modify the source speaker's voice to resemble the target speaker while preserving the original speech content. Despite notable advancements in voice conversion these days, multi-lingual voice conversion (including both monolingual and cross-lingual scenarios) has yet to be extensively studied. It faces two main challenges: 1) the considerable variability in prosody and articulation habits across languages; and 2) the rarity of paired multi-lingual datasets from the same speaker. In this paper, we propose MulliVC, a novel voice conversion system that only converts timbre and keeps original content and source language prosody without multi-lingual paired data. Specifically, each training step of MulliVC contains three substeps: In step one the model is trained with monolingual speech data; then, steps two and three take inspiration from back translation, construct a cyclical process to disentangle the timbre and other information (content, prosody, and other language-related information) in the absence of multi-lingual data from the same speaker. Both objective and subjective results indicate that MulliVC significantly surpasses other methods in both monolingual and cross-lingual contexts, demonstrating the system's efficacy and the viability of the three-step approach with cycle consistency. Audio samples can be found on our demo page (mullivc.github.io).

Summary

AI-Generated Summary

PDF82November 28, 2024