LiveSpeech: Síntesis de voz de texto a voz de baja latencia y cero disparos mediante modelado autorregresivo de códigos discretos de audio

Resumen

Trabajos previos han demostrado la capacidad de síntesis de voz de texto a voz (text-to-speech) en modo zero-shot mediante el uso de un modelo generativo de lenguaje sobre tokens de audio obtenidos a través de un códec neuronal de audio. Sin embargo, sigue siendo un desafío adaptarlos a escenarios de baja latencia. En este artículo, presentamos LiveSpeech: un enfoque basado en un modelo de lenguaje completamente autoregresivo para síntesis de voz zero-shot, que permite la transmisión en tiempo real del audio generado con baja latencia. Para permitir la predicción de múltiples tokens en un solo paso de decodificación, proponemos (1) el uso de pesos de pérdida adaptativos en el codebook que consideran la contribución de cada codebook en cada fotograma y se enfocan en instancias difíciles, y (2) la agrupación de codebooks y su procesamiento en paralelo. Los experimentos muestran que nuestros modelos propuestos logran resultados competitivos en comparación con los modelos de referencia más avanzados en términos de precisión del contenido, similitud del hablante, calidad de audio y velocidad de inferencia, siendo adecuados para aplicaciones de transmisión en tiempo real con baja latencia.

English

Prior works have demonstrated zero-shot text-to-speech by using a generative language model on audio tokens obtained via a neural audio codec. It is still challenging, however, to adapt them to low-latency scenarios. In this paper, we present LiveSpeech - a fully autoregressive language model-based approach for zero-shot text-to-speech, enabling low-latency streaming of the output audio. To allow multiple token prediction within a single decoding step, we propose (1) using adaptive codebook loss weights that consider codebook contribution in each frame and focus on hard instances, and (2) grouping codebooks and processing groups in parallel. Experiments show our proposed models achieve competitive results to state-of-the-art baselines in terms of content accuracy, speaker similarity, audio quality, and inference speed while being suitable for low-latency streaming applications.

LiveSpeech: Síntesis de voz de texto a voz de baja latencia y cero disparos mediante modelado autorregresivo de códigos discretos de audio

LiveSpeech: Low-Latency Zero-shot Text-to-Speech via Autoregressive Modeling of Audio Discrete Codes

Resumen

Support