LiveSpeech: Síntese de Fala de Texto para Voz com Baixa Latência e Zero-shot via Modelagem Autoregressiva de Códigos Discretos de Áudio
LiveSpeech: Low-Latency Zero-shot Text-to-Speech via Autoregressive Modeling of Audio Discrete Codes
June 5, 2024
Autores: Trung Dang, David Aponte, Dung Tran, Kazuhito Koishida
cs.AI
Resumo
Trabalhos anteriores demonstraram a síntese de texto para fala zero-shot utilizando um modelo de linguagem generativa em tokens de áudio obtidos por meio de um codec neural de áudio. No entanto, ainda é desafiador adaptar esses métodos a cenários de baixa latência. Neste artigo, apresentamos o LiveSpeech - uma abordagem totalmente autoregressiva baseada em modelo de linguagem para síntese de texto para fala zero-shot, permitindo o streaming de áudio de saída com baixa latência. Para permitir a previsão de múltiplos tokens em uma única etapa de decodificação, propomos (1) o uso de pesos de perda adaptativos do codebook que consideram a contribuição de cada codebook em cada quadro e focam em instâncias difíceis, e (2) o agrupamento de codebooks e o processamento paralelo desses grupos. Experimentos mostram que nossos modelos propostos alcançam resultados competitivos em relação às abordagens state-of-the-art em termos de precisão de conteúdo, similaridade de voz, qualidade de áudio e velocidade de inferência, sendo adequados para aplicações de streaming com baixa latência.
English
Prior works have demonstrated zero-shot text-to-speech by using a generative
language model on audio tokens obtained via a neural audio codec. It is still
challenging, however, to adapt them to low-latency scenarios. In this paper, we
present LiveSpeech - a fully autoregressive language model-based approach for
zero-shot text-to-speech, enabling low-latency streaming of the output audio.
To allow multiple token prediction within a single decoding step, we propose
(1) using adaptive codebook loss weights that consider codebook contribution in
each frame and focus on hard instances, and (2) grouping codebooks and
processing groups in parallel. Experiments show our proposed models achieve
competitive results to state-of-the-art baselines in terms of content accuracy,
speaker similarity, audio quality, and inference speed while being suitable for
low-latency streaming applications.