ChatPaper.aiChatPaper

VALL-E 2: Los Modelos de Lenguaje con Codec Neuronal alcanzan la Paridad Humana en la Síntesis de Voz a partir de Texto en Modo Zero-Shot

VALL-E 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers

June 8, 2024
Autores: Sanyuan Chen, Shujie Liu, Long Zhou, Yanqing Liu, Xu Tan, Jinyu Li, Sheng Zhao, Yao Qian, Furu Wei
cs.AI

Resumen

Este artículo presenta VALL-E 2, el avance más reciente en modelos de lenguaje de códec neuronal que marca un hito en la síntesis de texto a voz (TTS) en modo zero-shot, logrando por primera vez un nivel equivalente al humano. Basado en su predecesor, VALL-E, esta nueva iteración introduce dos mejoras significativas: el Muestreo Consciente de Repeticiones refina el proceso original de muestreo de núcleo al tener en cuenta la repetición de tokens en el historial de decodificación. No solo estabiliza la decodificación, sino que también evita el problema de los bucles infinitos. El Modelado de Códigos Agrupados organiza los códigos del códec en grupos para acortar efectivamente la longitud de la secuencia, lo que no solo acelera la inferencia, sino que también aborda los desafíos del modelado de secuencias largas. Nuestros experimentos en los conjuntos de datos LibriSpeech y VCTK muestran que VALL-E 2 supera a los sistemas anteriores en robustez del habla, naturalidad y similitud con el hablante. Es el primero de su tipo en alcanzar un nivel equivalente al humano en estos puntos de referencia. Además, VALL-E 2 sintetiza consistentemente habla de alta calidad, incluso para oraciones que tradicionalmente son desafiantes debido a su complejidad o frases repetitivas. Las ventajas de este trabajo podrían contribuir a esfuerzos valiosos, como la generación de habla para personas con afasia o personas con esclerosis lateral amiotrófica. Las demostraciones de VALL-E 2 estarán disponibles en https://aka.ms/valle2.
English
This paper introduces VALL-E 2, the latest advancement in neural codec language models that marks a milestone in zero-shot text-to-speech synthesis (TTS), achieving human parity for the first time. Based on its predecessor, VALL-E, the new iteration introduces two significant enhancements: Repetition Aware Sampling refines the original nucleus sampling process by accounting for token repetition in the decoding history. It not only stabilizes the decoding but also circumvents the infinite loop issue. Grouped Code Modeling organizes codec codes into groups to effectively shorten the sequence length, which not only boosts inference speed but also addresses the challenges of long sequence modeling. Our experiments on the LibriSpeech and VCTK datasets show that VALL-E 2 surpasses previous systems in speech robustness, naturalness, and speaker similarity. It is the first of its kind to reach human parity on these benchmarks. Moreover, VALL-E 2 consistently synthesizes high-quality speech, even for sentences that are traditionally challenging due to their complexity or repetitive phrases. The advantages of this work could contribute to valuable endeavors, such as generating speech for individuals with aphasia or people with amyotrophic lateral sclerosis. Demos of VALL-E 2 will be posted to https://aka.ms/valle2.

Summary

AI-Generated Summary

PDF190December 8, 2024