LiveSpeech: Sintesi Vocale Zero-shot a Bassa Latenza tramite Modellazione Autoregressiva di Codici Audio Discreti
LiveSpeech: Low-Latency Zero-shot Text-to-Speech via Autoregressive Modeling of Audio Discrete Codes
June 5, 2024
Autori: Trung Dang, David Aponte, Dung Tran, Kazuhito Koishida
cs.AI
Abstract
I lavori precedenti hanno dimostrato la capacità di sintesi vocale zero-shot utilizzando un modello linguistico generativo su token audio ottenuti tramite un codec neurale. Tuttavia, adattarli a scenari a bassa latenza rimane una sfida. In questo articolo, presentiamo LiveSpeech - un approccio basato su un modello linguistico completamente autoregressivo per la sintesi vocale zero-shot, che consente lo streaming a bassa latenza dell'audio generato. Per consentire la previsione di più token in un singolo passaggio di decodifica, proponiamo (1) l'uso di pesi di perdita adattivi per i codebook che considerano il contributo di ciascun codebook in ogni frame e si concentrano sugli esempi più difficili, e (2) il raggruppamento dei codebook e l'elaborazione parallela dei gruppi. Gli esperimenti dimostrano che i nostri modelli proposti raggiungono risultati competitivi rispetto ai migliori modelli di riferimento in termini di accuratezza del contenuto, somiglianza del parlante, qualità audio e velocità di inferenza, risultando al contempo adatti per applicazioni di streaming a bassa latenza.
English
Prior works have demonstrated zero-shot text-to-speech by using a generative
language model on audio tokens obtained via a neural audio codec. It is still
challenging, however, to adapt them to low-latency scenarios. In this paper, we
present LiveSpeech - a fully autoregressive language model-based approach for
zero-shot text-to-speech, enabling low-latency streaming of the output audio.
To allow multiple token prediction within a single decoding step, we propose
(1) using adaptive codebook loss weights that consider codebook contribution in
each frame and focus on hard instances, and (2) grouping codebooks and
processing groups in parallel. Experiments show our proposed models achieve
competitive results to state-of-the-art baselines in terms of content accuracy,
speaker similarity, audio quality, and inference speed while being suitable for
low-latency streaming applications.