Nul-shot cross-linguale stemoverdracht voor tekst-naar-spraak (TTS)
Zero-shot Cross-lingual Voice Transfer for TTS
September 20, 2024
Auteurs: Fadi Biadsy, Youzheng Chen, Isaac Elias, Kyle Kastner, Gary Wang, Andrew Rosenberg, Bhuvana Ramabhadran
cs.AI
Samenvatting
In dit artikel introduceren we een zero-shot Stemoverdracht (VT) module die naadloos geïntegreerd kan worden in een meertalig Tekst-naar-spraak (TTS) systeem om een individuele stem over te dragen tussen talen. Onze voorgestelde VT module bestaat uit een spreker-encoder die referentiespraak verwerkt, een bottlenecklaag en restadapters, verbonden met bestaande TTS-lagen. We vergelijken de prestaties van verschillende configuraties van deze componenten en rapporteren de Gemiddelde Beoordelingsscore (MOS) en Spreker Gelijkenis tussen talen. Met slechts één Engelse referentiespraak per spreker behalen we een gemiddelde stemoverdrachtgelijkenisscore van 73% over negen doeltalen. Stemkenmerken dragen aanzienlijk bij aan de constructie en perceptie van individuele identiteit. Het verlies van iemands stem, als gevolg van fysieke of neurologische aandoeningen, kan leiden tot een diep gevoel van verlies, wat de kernidentiteit van iemand beïnvloedt. Als casestudie tonen we aan dat onze benadering niet alleen typische spraak kan overdragen, maar ook de stemmen van personen met dysartrie kan herstellen, zelfs wanneer alleen atypische spraakvoorbeelden beschikbaar zijn - een waardevol hulpmiddel voor degenen die nooit typische spraak hebben gehad of hun stem hebben opgeslagen. Cross-linguale typische audiovoorbeelden, plus video's die stemherstel demonstreren voor sprekers met dysartrie, zijn hier beschikbaar (google.github.io/tacotron/publications/zero_shot_voice_transfer).
English
In this paper, we introduce a zero-shot Voice Transfer (VT) module that can
be seamlessly integrated into a multi-lingual Text-to-speech (TTS) system to
transfer an individual's voice across languages. Our proposed VT module
comprises a speaker-encoder that processes reference speech, a bottleneck
layer, and residual adapters, connected to preexisting TTS layers. We compare
the performance of various configurations of these components and report Mean
Opinion Score (MOS) and Speaker Similarity across languages. Using a single
English reference speech per speaker, we achieve an average voice transfer
similarity score of 73% across nine target languages. Vocal characteristics
contribute significantly to the construction and perception of individual
identity. The loss of one's voice, due to physical or neurological conditions,
can lead to a profound sense of loss, impacting one's core identity. As a case
study, we demonstrate that our approach can not only transfer typical speech
but also restore the voices of individuals with dysarthria, even when only
atypical speech samples are available - a valuable utility for those who have
never had typical speech or banked their voice. Cross-lingual typical audio
samples, plus videos demonstrating voice restoration for dysarthric speakers
are available here
(google.github.io/tacotron/publications/zero_shot_voice_transfer).Summary
AI-Generated Summary