Transferência de Voz Cross-lingual sem Nenhum Treinamento para Síntese de Fala
Zero-shot Cross-lingual Voice Transfer for TTS
September 20, 2024
Autores: Fadi Biadsy, Youzheng Chen, Isaac Elias, Kyle Kastner, Gary Wang, Andrew Rosenberg, Bhuvana Ramabhadran
cs.AI
Resumo
Neste artigo, apresentamos um módulo de Transferência de Voz (VT) de zero-shot que pode ser integrado de forma contínua em um sistema multi-idioma de Texto para Fala (TTS) para transferir a voz de um indivíduo entre idiomas. Nosso módulo de VT proposto consiste em um codificador de locutor que processa a fala de referência, uma camada de gargalo e adaptadores residuais, conectados às camadas pré-existentes do TTS. Comparamos o desempenho de várias configurações desses componentes e relatamos a Pontuação Média de Opinião (MOS) e a Similaridade de Locutor entre idiomas. Usando uma única fala de referência em inglês por locutor, alcançamos uma pontuação média de similaridade na transferência de voz de 73% em nove idiomas-alvo. As características vocais contribuem significativamente para a construção e percepção da identidade individual. A perda da voz de alguém, devido a condições físicas ou neurológicas, pode levar a um profundo senso de perda, impactando a identidade central de alguém. Como estudo de caso, demonstramos que nossa abordagem não só pode transferir fala típica, mas também restaurar as vozes de indivíduos com disartria, mesmo quando apenas amostras de fala atípica estão disponíveis - uma utilidade valiosa para aqueles que nunca tiveram fala típica ou gravaram sua voz. Amostras de áudio típicas cruzando idiomas, além de vídeos demonstrando a restauração de voz para falantes com disartria, estão disponíveis aqui (google.github.io/tacotron/publications/zero_shot_voice_transfer).
English
In this paper, we introduce a zero-shot Voice Transfer (VT) module that can
be seamlessly integrated into a multi-lingual Text-to-speech (TTS) system to
transfer an individual's voice across languages. Our proposed VT module
comprises a speaker-encoder that processes reference speech, a bottleneck
layer, and residual adapters, connected to preexisting TTS layers. We compare
the performance of various configurations of these components and report Mean
Opinion Score (MOS) and Speaker Similarity across languages. Using a single
English reference speech per speaker, we achieve an average voice transfer
similarity score of 73% across nine target languages. Vocal characteristics
contribute significantly to the construction and perception of individual
identity. The loss of one's voice, due to physical or neurological conditions,
can lead to a profound sense of loss, impacting one's core identity. As a case
study, we demonstrate that our approach can not only transfer typical speech
but also restore the voices of individuals with dysarthria, even when only
atypical speech samples are available - a valuable utility for those who have
never had typical speech or banked their voice. Cross-lingual typical audio
samples, plus videos demonstrating voice restoration for dysarthric speakers
are available here
(google.github.io/tacotron/publications/zero_shot_voice_transfer).Summary
AI-Generated Summary