LiveSpeech: Síntesis de voz de texto a voz de baja latencia y cero disparos mediante modelado autorregresivo de códigos discretos de audio
LiveSpeech: Low-Latency Zero-shot Text-to-Speech via Autoregressive Modeling of Audio Discrete Codes
June 5, 2024
Autores: Trung Dang, David Aponte, Dung Tran, Kazuhito Koishida
cs.AI
Resumen
Trabajos previos han demostrado la capacidad de síntesis de voz de texto a voz (text-to-speech) en modo zero-shot mediante el uso de un modelo generativo de lenguaje sobre tokens de audio obtenidos a través de un códec neuronal de audio. Sin embargo, sigue siendo un desafío adaptarlos a escenarios de baja latencia. En este artículo, presentamos LiveSpeech: un enfoque basado en un modelo de lenguaje completamente autoregresivo para síntesis de voz zero-shot, que permite la transmisión en tiempo real del audio generado con baja latencia. Para permitir la predicción de múltiples tokens en un solo paso de decodificación, proponemos (1) el uso de pesos de pérdida adaptativos en el codebook que consideran la contribución de cada codebook en cada fotograma y se enfocan en instancias difíciles, y (2) la agrupación de codebooks y su procesamiento en paralelo. Los experimentos muestran que nuestros modelos propuestos logran resultados competitivos en comparación con los modelos de referencia más avanzados en términos de precisión del contenido, similitud del hablante, calidad de audio y velocidad de inferencia, siendo adecuados para aplicaciones de transmisión en tiempo real con baja latencia.
English
Prior works have demonstrated zero-shot text-to-speech by using a generative
language model on audio tokens obtained via a neural audio codec. It is still
challenging, however, to adapt them to low-latency scenarios. In this paper, we
present LiveSpeech - a fully autoregressive language model-based approach for
zero-shot text-to-speech, enabling low-latency streaming of the output audio.
To allow multiple token prediction within a single decoding step, we propose
(1) using adaptive codebook loss weights that consider codebook contribution in
each frame and focus on hard instances, and (2) grouping codebooks and
processing groups in parallel. Experiments show our proposed models achieve
competitive results to state-of-the-art baselines in terms of content accuracy,
speaker similarity, audio quality, and inference speed while being suitable for
low-latency streaming applications.Summary
AI-Generated Summary