LiveSpeech: 오디오 이산 코드의 자기회귀적 모델링을 통한 저지연 제로샷 텍스트-투-스피치
LiveSpeech: Low-Latency Zero-shot Text-to-Speech via Autoregressive Modeling of Audio Discrete Codes
June 5, 2024
저자: Trung Dang, David Aponte, Dung Tran, Kazuhito Koishida
cs.AI
초록
선행 연구들은 신경망 오디오 코덱을 통해 얻은 오디오 토큰에 생성적 언어 모델을 사용하여 제로샷 텍스트-투-스피치를 구현해 왔습니다. 그러나 이러한 접근법을 저지연 시나리오에 적용하는 것은 여전히 어려운 과제로 남아 있습니다. 본 논문에서는 제로샷 텍스트-투-스피치를 위한 완전한 자기회귀 언어 모델 기반 접근법인 LiveSpeech를 소개하며, 이를 통해 출력 오디오의 저지연 스트리밍이 가능합니다. 단일 디코딩 단계 내에서 다중 토큰 예측을 가능하게 하기 위해, 우리는 (1) 각 프레임에서의 코드북 기여도를 고려하고 어려운 사례에 초점을 맞춘 적응형 코드북 손실 가중치를 사용하는 방법과 (2) 코드북을 그룹화하여 병렬로 처리하는 방법을 제안합니다. 실험 결과, 제안된 모델은 콘텐츠 정확도, 화자 유사성, 오디오 품질 및 추론 속도 측면에서 최첨단 베이스라인과 경쟁력 있는 결과를 달성하면서도 저지연 스트리밍 애플리케이션에 적합함을 보여줍니다.
English
Prior works have demonstrated zero-shot text-to-speech by using a generative
language model on audio tokens obtained via a neural audio codec. It is still
challenging, however, to adapt them to low-latency scenarios. In this paper, we
present LiveSpeech - a fully autoregressive language model-based approach for
zero-shot text-to-speech, enabling low-latency streaming of the output audio.
To allow multiple token prediction within a single decoding step, we propose
(1) using adaptive codebook loss weights that consider codebook contribution in
each frame and focus on hard instances, and (2) grouping codebooks and
processing groups in parallel. Experiments show our proposed models achieve
competitive results to state-of-the-art baselines in terms of content accuracy,
speaker similarity, audio quality, and inference speed while being suitable for
low-latency streaming applications.Summary
AI-Generated Summary