ChatPaper.aiChatPaper

VALL-E 2: Modelos de Linguagem Neural Codec Alcançam Paridade Humana em Síntese de Fala a partir de Texto em Zero-Shot

VALL-E 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers

June 8, 2024
Autores: Sanyuan Chen, Shujie Liu, Long Zhou, Yanqing Liu, Xu Tan, Jinyu Li, Sheng Zhao, Yao Qian, Furu Wei
cs.AI

Resumo

Este artigo apresenta o VALL-E 2, o mais recente avanço em modelos de linguagem de codec neural, que marca um marco na síntese de texto para fala (TTS) em zero-shot, alcançando pela primeira vez a paridade humana. Baseado em seu predecessor, o VALL-E, esta nova iteração introduz duas melhorias significativas: a Amostragem Consciente de Repetição refina o processo original de amostragem de núcleo ao considerar a repetição de tokens no histórico de decodificação. Isso não apenas estabiliza a decodificação, mas também evita o problema de loop infinito. A Modelagem de Código Agrupado organiza os códigos do codec em grupos para encurtar efetivamente o comprimento da sequência, o que não apenas aumenta a velocidade de inferência, mas também aborda os desafios da modelagem de sequências longas. Nossos experimentos nos conjuntos de dados LibriSpeech e VCTK mostram que o VALL-E 2 supera os sistemas anteriores em robustez de fala, naturalidade e similaridade do falante. É o primeiro do tipo a alcançar a paridade humana nesses benchmarks. Além disso, o VALL-E 2 sintetiza consistentemente fala de alta qualidade, mesmo para frases tradicionalmente desafiadoras devido à sua complexidade ou frases repetitivas. As vantagens deste trabalho podem contribuir para esforços valiosos, como a geração de fala para indivíduos com afasia ou pessoas com esclerose lateral amiotrófica. Demonstrações do VALL-E 2 serão publicadas em https://aka.ms/valle2.
English
This paper introduces VALL-E 2, the latest advancement in neural codec language models that marks a milestone in zero-shot text-to-speech synthesis (TTS), achieving human parity for the first time. Based on its predecessor, VALL-E, the new iteration introduces two significant enhancements: Repetition Aware Sampling refines the original nucleus sampling process by accounting for token repetition in the decoding history. It not only stabilizes the decoding but also circumvents the infinite loop issue. Grouped Code Modeling organizes codec codes into groups to effectively shorten the sequence length, which not only boosts inference speed but also addresses the challenges of long sequence modeling. Our experiments on the LibriSpeech and VCTK datasets show that VALL-E 2 surpasses previous systems in speech robustness, naturalness, and speaker similarity. It is the first of its kind to reach human parity on these benchmarks. Moreover, VALL-E 2 consistently synthesizes high-quality speech, even for sentences that are traditionally challenging due to their complexity or repetitive phrases. The advantages of this work could contribute to valuable endeavors, such as generating speech for individuals with aphasia or people with amyotrophic lateral sclerosis. Demos of VALL-E 2 will be posted to https://aka.ms/valle2.
PDF190December 8, 2024