Trasferimento vocale cross-linguistico senza addestramento per la sintesi vocale.
Zero-shot Cross-lingual Voice Transfer for TTS
September 20, 2024
Autori: Fadi Biadsy, Youzheng Chen, Isaac Elias, Kyle Kastner, Gary Wang, Andrew Rosenberg, Bhuvana Ramabhadran
cs.AI
Abstract
In questo articolo, presentiamo un modulo di Trasferimento Vocale (VT) zero-shot che può essere integrato senza soluzione di continuità in un sistema di Text-to-speech (TTS) multilingue per trasferire la voce di un individuo tra lingue diverse. Il nostro modulo VT proposto include un codificatore di speaker che elabora il discorso di riferimento, uno strato di bottleneck e adattatori residui, collegati agli strati preesistenti del TTS. Confrontiamo le prestazioni di varie configurazioni di questi componenti e riportiamo il Punteggio Medio di Opinione (MOS) e la Similarità degli Speaker tra lingue. Utilizzando un unico discorso di riferimento in inglese per speaker, otteniamo un punteggio medio di similarità nel trasferimento della voce del 73% in nove lingue di destinazione. Le caratteristiche vocali contribuiscono significativamente alla costruzione e percezione dell'identità individuale. La perdita della propria voce, a causa di condizioni fisiche o neurologiche, può portare a un profondo senso di perdita, influenzando l'identità fondamentale di una persona. Come studio di caso, dimostriamo che il nostro approccio non solo può trasferire discorsi tipici, ma può anche ripristinare le voci di individui con disartria, anche quando sono disponibili solo campioni di discorsi atipici - un'utilità preziosa per coloro che non hanno mai avuto un discorso tipico o registrato la propria voce. Campioni audio tipici cross-linguistici, oltre a video che dimostrano il ripristino della voce per gli speaker disartrici, sono disponibili qui (google.github.io/tacotron/publications/zero_shot_voice_transfer).
English
In this paper, we introduce a zero-shot Voice Transfer (VT) module that can
be seamlessly integrated into a multi-lingual Text-to-speech (TTS) system to
transfer an individual's voice across languages. Our proposed VT module
comprises a speaker-encoder that processes reference speech, a bottleneck
layer, and residual adapters, connected to preexisting TTS layers. We compare
the performance of various configurations of these components and report Mean
Opinion Score (MOS) and Speaker Similarity across languages. Using a single
English reference speech per speaker, we achieve an average voice transfer
similarity score of 73% across nine target languages. Vocal characteristics
contribute significantly to the construction and perception of individual
identity. The loss of one's voice, due to physical or neurological conditions,
can lead to a profound sense of loss, impacting one's core identity. As a case
study, we demonstrate that our approach can not only transfer typical speech
but also restore the voices of individuals with dysarthria, even when only
atypical speech samples are available - a valuable utility for those who have
never had typical speech or banked their voice. Cross-lingual typical audio
samples, plus videos demonstrating voice restoration for dysarthric speakers
are available here
(google.github.io/tacotron/publications/zero_shot_voice_transfer).Summary
AI-Generated Summary