VALL-E 2: Modelli Linguistici Neurali Codec Raggiungono la Parità Umana nella Sintesi Vocale Zero-Shot da Testo
VALL-E 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers
June 8, 2024
Autori: Sanyuan Chen, Shujie Liu, Long Zhou, Yanqing Liu, Xu Tan, Jinyu Li, Sheng Zhao, Yao Qian, Furu Wei
cs.AI
Abstract
Questo articolo presenta VALL-E 2, il più recente progresso nei modelli linguistici neurali codec che segna una pietra miliare nella sintesi vocale da testo in modalità zero-shot (TTS), raggiungendo per la prima volta la parità con le prestazioni umane. Basandosi sul suo predecessore, VALL-E, la nuova iterazione introduce due significativi miglioramenti: il Repetition Aware Sampling perfeziona il processo originale di campionamento nucleo tenendo conto della ripetizione dei token nella storia di decodifica. Non solo stabilizza la decodifica, ma evita anche il problema del ciclo infinito. Il Grouped Code Modeling organizza i codici codec in gruppi per ridurre efficacemente la lunghezza della sequenza, il che non solo aumenta la velocità di inferenza ma affronta anche le sfide della modellazione di sequenze lunghe. I nostri esperimenti sui dataset LibriSpeech e VCTK dimostrano che VALL-E 2 supera i sistemi precedenti in termini di robustezza del parlato, naturalezza e somiglianza con il parlante. È il primo del suo genere a raggiungere la parità umana su questi benchmark. Inoltre, VALL-E 2 sintetizza costantemente un parlato di alta qualità, anche per frasi tradizionalmente complesse a causa della loro struttura o di frasi ripetitive. I vantaggi di questo lavoro potrebbero contribuire a iniziative preziose, come la generazione di parlato per individui con afasia o persone affette da sclerosi laterale amiotrofica. Le demo di VALL-E 2 saranno pubblicate su https://aka.ms/valle2.
English
This paper introduces VALL-E 2, the latest advancement in neural codec
language models that marks a milestone in zero-shot text-to-speech synthesis
(TTS), achieving human parity for the first time. Based on its predecessor,
VALL-E, the new iteration introduces two significant enhancements: Repetition
Aware Sampling refines the original nucleus sampling process by accounting for
token repetition in the decoding history. It not only stabilizes the decoding
but also circumvents the infinite loop issue. Grouped Code Modeling organizes
codec codes into groups to effectively shorten the sequence length, which not
only boosts inference speed but also addresses the challenges of long sequence
modeling. Our experiments on the LibriSpeech and VCTK datasets show that VALL-E
2 surpasses previous systems in speech robustness, naturalness, and speaker
similarity. It is the first of its kind to reach human parity on these
benchmarks. Moreover, VALL-E 2 consistently synthesizes high-quality speech,
even for sentences that are traditionally challenging due to their complexity
or repetitive phrases. The advantages of this work could contribute to valuable
endeavors, such as generating speech for individuals with aphasia or people
with amyotrophic lateral sclerosis. Demos of VALL-E 2 will be posted to
https://aka.ms/valle2.