Transferencia de voz multilingüe sin entrenamiento para síntesis de voz.
Zero-shot Cross-lingual Voice Transfer for TTS
September 20, 2024
Autores: Fadi Biadsy, Youzheng Chen, Isaac Elias, Kyle Kastner, Gary Wang, Andrew Rosenberg, Bhuvana Ramabhadran
cs.AI
Resumen
En este documento, presentamos un módulo de Transferencia de Voz (VT) de cero disparos que puede integrarse fácilmente en un sistema de Texto a Voz (TTS) multilingüe para transferir la voz de un individuo entre idiomas. Nuestro módulo de VT propuesto consta de un codificador de hablante que procesa el habla de referencia, una capa de cuello de botella y adaptadores residuales, conectados a capas preexistentes de TTS. Comparamos el rendimiento de varias configuraciones de estos componentes y reportamos la Puntuación Media de Opinión (MOS) y la Similitud de Hablante entre idiomas. Utilizando un único habla de referencia en inglés por hablante, logramos una puntuación promedio de similitud de transferencia de voz del 73% en nueve idiomas objetivo. Las características vocales contribuyen significativamente a la construcción y percepción de la identidad individual. La pérdida de la voz de uno, debido a condiciones físicas o neurológicas, puede llevar a un profundo sentido de pérdida, impactando la identidad central de uno. Como estudio de caso, demostramos que nuestro enfoque no solo puede transferir habla típica, sino también restaurar las voces de individuos con disartria, incluso cuando solo se dispone de muestras de habla atípicas, una utilidad valiosa para aquellos que nunca han tenido habla típica o han grabado su voz. Muestras de audio típicas cruzadas entre idiomas, además de videos que demuestran la restauración de la voz para hablantes con disartria, están disponibles aquí (google.github.io/tacotron/publications/zero_shot_voice_transfer).
English
In this paper, we introduce a zero-shot Voice Transfer (VT) module that can
be seamlessly integrated into a multi-lingual Text-to-speech (TTS) system to
transfer an individual's voice across languages. Our proposed VT module
comprises a speaker-encoder that processes reference speech, a bottleneck
layer, and residual adapters, connected to preexisting TTS layers. We compare
the performance of various configurations of these components and report Mean
Opinion Score (MOS) and Speaker Similarity across languages. Using a single
English reference speech per speaker, we achieve an average voice transfer
similarity score of 73% across nine target languages. Vocal characteristics
contribute significantly to the construction and perception of individual
identity. The loss of one's voice, due to physical or neurological conditions,
can lead to a profound sense of loss, impacting one's core identity. As a case
study, we demonstrate that our approach can not only transfer typical speech
but also restore the voices of individuals with dysarthria, even when only
atypical speech samples are available - a valuable utility for those who have
never had typical speech or banked their voice. Cross-lingual typical audio
samples, plus videos demonstrating voice restoration for dysarthric speakers
are available here
(google.github.io/tacotron/publications/zero_shot_voice_transfer).Summary
AI-Generated Summary