LiveSpeech : Synthèse vocale à faible latence et zero-shot via modélisation autorégressive de codes audio discrets
LiveSpeech: Low-Latency Zero-shot Text-to-Speech via Autoregressive Modeling of Audio Discrete Codes
June 5, 2024
Auteurs: Trung Dang, David Aponte, Dung Tran, Kazuhito Koishida
cs.AI
Résumé
Les travaux antérieurs ont démontré la capacité de synthèse vocale en zero-shot en utilisant un modèle de langage génératif sur des tokens audio obtenus via un codec audio neuronal. Cependant, il reste difficile de les adapter à des scénarios à faible latence. Dans cet article, nous présentons LiveSpeech - une approche entièrement autoregressive basée sur un modèle de langage pour la synthèse vocale en zero-shot, permettant un streaming à faible latence de l'audio généré. Pour permettre la prédiction de plusieurs tokens en une seule étape de décodage, nous proposons (1) d'utiliser des pondérations de perte adaptatives pour les codebooks qui prennent en compte la contribution de chaque codebook dans chaque trame et se concentrent sur les instances difficiles, et (2) de regrouper les codebooks et de les traiter en parallèle. Les expériences montrent que nos modèles proposés obtiennent des résultats compétitifs par rapport aux approches de l'état de l'art en termes de précision du contenu, similarité du locuteur, qualité audio et vitesse d'inférence, tout en étant adaptés aux applications de streaming à faible latence.
English
Prior works have demonstrated zero-shot text-to-speech by using a generative
language model on audio tokens obtained via a neural audio codec. It is still
challenging, however, to adapt them to low-latency scenarios. In this paper, we
present LiveSpeech - a fully autoregressive language model-based approach for
zero-shot text-to-speech, enabling low-latency streaming of the output audio.
To allow multiple token prediction within a single decoding step, we propose
(1) using adaptive codebook loss weights that consider codebook contribution in
each frame and focus on hard instances, and (2) grouping codebooks and
processing groups in parallel. Experiments show our proposed models achieve
competitive results to state-of-the-art baselines in terms of content accuracy,
speaker similarity, audio quality, and inference speed while being suitable for
low-latency streaming applications.Summary
AI-Generated Summary