ChatPaper.aiChatPaper

VALL-E 2: Нейронные модели языка кодека достигли человеческого уровня в синтезе речи с нулевым обучением.

VALL-E 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers

June 8, 2024
Авторы: Sanyuan Chen, Shujie Liu, Long Zhou, Yanqing Liu, Xu Tan, Jinyu Li, Sheng Zhao, Yao Qian, Furu Wei
cs.AI

Аннотация

Этот документ представляет VALL-E 2, последнее достижение в нейронных кодеках языковых моделей, которое является вехой в синтезе речи из текста "нулевого шага", впервые достигнув человеческого уровня. Основываясь на своем предшественнике, VALL-E, новая версия вводит два значительных улучшения: Repetition Aware Sampling улучшает исходный процесс ядерной выборки, учитывая повторение токенов в истории декодирования. Это не только стабилизирует декодирование, но и обходит проблему бесконечного цикла. Моделирование сгруппированных кодов организует коды кодека в группы для эффективного сокращения длины последовательности, что не только увеличивает скорость вывода, но и решает проблемы моделирования длинных последовательностей. Наши эксперименты на наборах данных LibriSpeech и VCTK показывают, что VALL-E 2 превосходит предыдущие системы в устойчивости речи, естественности и сходстве диктора. Это первый в своем роде случай достижения человеческого уровня по этим показателям. Более того, VALL-E 2 последовательно синтезирует речь высокого качества, даже для предложений, которые традиционно сложны из-за своей сложности или повторяющихся фраз. Преимущества этой работы могут способствовать ценным усилиям, таким как создание речи для людей с афазией или боковым амиотрофическим склерозом. Демонстрации VALL-E 2 будут опубликованы на https://aka.ms/valle2.
English
This paper introduces VALL-E 2, the latest advancement in neural codec language models that marks a milestone in zero-shot text-to-speech synthesis (TTS), achieving human parity for the first time. Based on its predecessor, VALL-E, the new iteration introduces two significant enhancements: Repetition Aware Sampling refines the original nucleus sampling process by accounting for token repetition in the decoding history. It not only stabilizes the decoding but also circumvents the infinite loop issue. Grouped Code Modeling organizes codec codes into groups to effectively shorten the sequence length, which not only boosts inference speed but also addresses the challenges of long sequence modeling. Our experiments on the LibriSpeech and VCTK datasets show that VALL-E 2 surpasses previous systems in speech robustness, naturalness, and speaker similarity. It is the first of its kind to reach human parity on these benchmarks. Moreover, VALL-E 2 consistently synthesizes high-quality speech, even for sentences that are traditionally challenging due to their complexity or repetitive phrases. The advantages of this work could contribute to valuable endeavors, such as generating speech for individuals with aphasia or people with amyotrophic lateral sclerosis. Demos of VALL-E 2 will be posted to https://aka.ms/valle2.

Summary

AI-Generated Summary

PDF190December 8, 2024