VALL-E 2 : Les modèles de langage à codec neuronal atteignent la parité humaine en synthèse vocale à partir de texte en mode zero-shot.
VALL-E 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers
June 8, 2024
Auteurs: Sanyuan Chen, Shujie Liu, Long Zhou, Yanqing Liu, Xu Tan, Jinyu Li, Sheng Zhao, Yao Qian, Furu Wei
cs.AI
Résumé
Cet article présente VALL-E 2, la dernière avancée dans les modèles de langage à codec neuronal, marquant une étape majeure dans la synthèse vocale à partir de texte en mode zero-shot (TTS), atteignant pour la première fois un niveau équivalent à celui de l'humain. Basé sur son prédécesseur, VALL-E, cette nouvelle itération introduit deux améliorations significatives : l'échantillonnage conscient des répétitions (Repetition Aware Sampling) affine le processus d'échantillonnage nucléaire original en tenant compte des répétitions de tokens dans l'historique de décodage. Cela stabilise non seulement le décodage, mais évite également le problème des boucles infinies. La modélisation groupée des codes (Grouped Code Modeling) organise les codes de codec en groupes pour réduire efficacement la longueur des séquences, ce qui accélère l'inférence et résout les défis liés à la modélisation de longues séquences. Nos expériences sur les ensembles de données LibriSpeech et VCTK montrent que VALL-E 2 surpasse les systèmes précédents en termes de robustesse de la parole, de naturel et de similarité du locuteur. Il est le premier à atteindre un niveau équivalent à celui de l'humain sur ces benchmarks. De plus, VALL-E 2 synthétise systématiquement une parole de haute qualité, même pour des phrases traditionnellement difficiles en raison de leur complexité ou de leurs répétitions. Les avantages de ce travail pourraient contribuer à des initiatives précieuses, telles que la génération de parole pour les personnes atteintes d'aphasie ou de sclérose latérale amyotrophique. Des démonstrations de VALL-E 2 seront disponibles sur https://aka.ms/valle2.
English
This paper introduces VALL-E 2, the latest advancement in neural codec
language models that marks a milestone in zero-shot text-to-speech synthesis
(TTS), achieving human parity for the first time. Based on its predecessor,
VALL-E, the new iteration introduces two significant enhancements: Repetition
Aware Sampling refines the original nucleus sampling process by accounting for
token repetition in the decoding history. It not only stabilizes the decoding
but also circumvents the infinite loop issue. Grouped Code Modeling organizes
codec codes into groups to effectively shorten the sequence length, which not
only boosts inference speed but also addresses the challenges of long sequence
modeling. Our experiments on the LibriSpeech and VCTK datasets show that VALL-E
2 surpasses previous systems in speech robustness, naturalness, and speaker
similarity. It is the first of its kind to reach human parity on these
benchmarks. Moreover, VALL-E 2 consistently synthesizes high-quality speech,
even for sentences that are traditionally challenging due to their complexity
or repetitive phrases. The advantages of this work could contribute to valuable
endeavors, such as generating speech for individuals with aphasia or people
with amyotrophic lateral sclerosis. Demos of VALL-E 2 will be posted to
https://aka.ms/valle2.Summary
AI-Generated Summary