VALL-E 2: 신경 코덱 언어 모델은 인간 수준의 제로샷 텍스트-음성 합성기입니다
VALL-E 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers
June 8, 2024
저자: Sanyuan Chen, Shujie Liu, Long Zhou, Yanqing Liu, Xu Tan, Jinyu Li, Sheng Zhao, Yao Qian, Furu Wei
cs.AI
초록
본 논문은 제로샷 텍스트-음성 합성(TTS) 분야에서 새로운 이정표를 세우며 인간 수준의 성능을 최초로 달성한 신경 코덱 언어 모델의 최신 발전인 VALL-E 2를 소개합니다. 이전 버전인 VALL-E를 기반으로, 새로운 버전은 두 가지 중요한 개선 사항을 도입했습니다: 반복 인지 샘플링(Repetition Aware Sampling)은 디코딩 기록에서 토큰 반복을 고려하여 원래의 핵심 샘플링 프로세스를 개선합니다. 이는 디코딩을 안정화할 뿐만 아니라 무한 루프 문제를 방지합니다. 그룹화된 코드 모델링(Grouped Code Modeling)은 코덱 코드를 그룹으로 조직하여 시퀀스 길이를 효과적으로 단축하며, 이는 추론 속도를 향상시킬 뿐만 아니라 긴 시퀀스 모델링의 문제를 해결합니다. LibriSpeech와 VCTK 데이터셋에서의 실험 결과, VALL-E 2는 음성 견고성, 자연스러움, 화자 유사성 측면에서 이전 시스템들을 능가하는 것으로 나타났습니다. 이는 이러한 벤치마크에서 인간 수준의 성능에 도달한 최초의 모델입니다. 또한, VALL-E 2는 복잡성이나 반복적인 구문으로 인해 전통적으로 어려웠던 문장들에 대해서도 일관되게 고품질의 음성을 합성합니다. 이 연구의 장점은 실어증이나 근위축성 측삭 경화증을 가진 개인들을 위한 음성 생성과 같은 가치 있는 노력에 기여할 수 있습니다. VALL-E 2의 데모는 https://aka.ms/valle2에 게시될 예정입니다.
English
This paper introduces VALL-E 2, the latest advancement in neural codec
language models that marks a milestone in zero-shot text-to-speech synthesis
(TTS), achieving human parity for the first time. Based on its predecessor,
VALL-E, the new iteration introduces two significant enhancements: Repetition
Aware Sampling refines the original nucleus sampling process by accounting for
token repetition in the decoding history. It not only stabilizes the decoding
but also circumvents the infinite loop issue. Grouped Code Modeling organizes
codec codes into groups to effectively shorten the sequence length, which not
only boosts inference speed but also addresses the challenges of long sequence
modeling. Our experiments on the LibriSpeech and VCTK datasets show that VALL-E
2 surpasses previous systems in speech robustness, naturalness, and speaker
similarity. It is the first of its kind to reach human parity on these
benchmarks. Moreover, VALL-E 2 consistently synthesizes high-quality speech,
even for sentences that are traditionally challenging due to their complexity
or repetitive phrases. The advantages of this work could contribute to valuable
endeavors, such as generating speech for individuals with aphasia or people
with amyotrophic lateral sclerosis. Demos of VALL-E 2 will be posted to
https://aka.ms/valle2.Summary
AI-Generated Summary