VALL-E 2: Neurale Codec Taalmodellen Bereiken Menselijke Pariteit in Zero-Shot Tekst-naar-Sprach Synthese
VALL-E 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers
June 8, 2024
Auteurs: Sanyuan Chen, Shujie Liu, Long Zhou, Yanqing Liu, Xu Tan, Jinyu Li, Sheng Zhao, Yao Qian, Furu Wei
cs.AI
Samenvatting
Dit artikel introduceert VALL-E 2, de nieuwste vooruitgang in neurale codec-taalmodellen die een mijlpaal markeert in zero-shot tekst-naar-spraaksynthese (TTS), waarbij voor het eerst menselijke pariteit wordt bereikt. Gebaseerd op zijn voorganger, VALL-E, introduceert deze nieuwe iteratie twee significante verbeteringen: Repetition Aware Sampling verfijnt het oorspronkelijke nucleus sampling-proces door rekening te houden met tokenherhaling in de decodeergeschiedenis. Het stabiliseert niet alleen het decoderen, maar omzeilt ook het probleem van oneindige lussen. Grouped Code Modeling organiseert codec-codes in groepen om de sequentielengte effectief te verkorten, wat niet alleen de inferentiesnelheid verhoogt, maar ook de uitdagingen van lange sequentiemodellering aanpakt. Onze experimenten op de LibriSpeech- en VCTK-datasets tonen aan dat VALL-E 2 eerdere systemen overtreft op het gebied van spraakrobustheid, natuurlijkheid en sprekersgelijkenis. Het is de eerste in zijn soort die menselijke pariteit bereikt op deze benchmarks. Bovendien synthetiseert VALL-E 2 consistent hoogwaardige spraak, zelfs voor zinnen die traditioneel uitdagend zijn vanwege hun complexiteit of repetitieve zinsdelen. De voordelen van dit werk kunnen bijdragen aan waardevolle inspanningen, zoals het genereren van spraak voor individuen met afasie of mensen met amyotrofische laterale sclerose. Demo's van VALL-E 2 zullen worden gepost op https://aka.ms/valle2.
English
This paper introduces VALL-E 2, the latest advancement in neural codec
language models that marks a milestone in zero-shot text-to-speech synthesis
(TTS), achieving human parity for the first time. Based on its predecessor,
VALL-E, the new iteration introduces two significant enhancements: Repetition
Aware Sampling refines the original nucleus sampling process by accounting for
token repetition in the decoding history. It not only stabilizes the decoding
but also circumvents the infinite loop issue. Grouped Code Modeling organizes
codec codes into groups to effectively shorten the sequence length, which not
only boosts inference speed but also addresses the challenges of long sequence
modeling. Our experiments on the LibriSpeech and VCTK datasets show that VALL-E
2 surpasses previous systems in speech robustness, naturalness, and speaker
similarity. It is the first of its kind to reach human parity on these
benchmarks. Moreover, VALL-E 2 consistently synthesizes high-quality speech,
even for sentences that are traditionally challenging due to their complexity
or repetitive phrases. The advantages of this work could contribute to valuable
endeavors, such as generating speech for individuals with aphasia or people
with amyotrophic lateral sclerosis. Demos of VALL-E 2 will be posted to
https://aka.ms/valle2.