LiveSpeech: Низколатентное нулевое преобразование текста в речь с помощью авторегрессивного моделирования аудиодискретных кодов
LiveSpeech: Low-Latency Zero-shot Text-to-Speech via Autoregressive Modeling of Audio Discrete Codes
June 5, 2024
Авторы: Trung Dang, David Aponte, Dung Tran, Kazuhito Koishida
cs.AI
Аннотация
Предыдущие работы продемонстрировали нулевое преобразование текста в речь с использованием генеративной языковой модели на звуковых токенах, полученных с помощью нейронного аудио кодека. Однако до сих пор остается сложной задачей их адаптация к сценариям с низкой задержкой. В данной статье мы представляем LiveSpeech - полностью авторегрессивный подход на основе языковой модели для нулевого преобразования текста в речь, обеспечивающий потоковую передачу выходного аудио с низкой задержкой. Для возможности предсказания нескольких токенов за один шаг декодирования мы предлагаем (1) использование адаптивных весов потерь кодового книжного вектора, учитывающих вклад кодового книжного вектора в каждом кадре и сосредотачивающихся на сложных случаях, и (2) группирование кодовых книг и обработку групп параллельно. Эксперименты показывают, что наши предложенные модели достигают конкурентоспособных результатов по сравнению с передовыми базовыми моделями в терминах точности содержания, сходства диктора, качества аудио и скорости вывода, при этом они подходят для приложений потоковой передачи с низкой задержкой.
English
Prior works have demonstrated zero-shot text-to-speech by using a generative
language model on audio tokens obtained via a neural audio codec. It is still
challenging, however, to adapt them to low-latency scenarios. In this paper, we
present LiveSpeech - a fully autoregressive language model-based approach for
zero-shot text-to-speech, enabling low-latency streaming of the output audio.
To allow multiple token prediction within a single decoding step, we propose
(1) using adaptive codebook loss weights that consider codebook contribution in
each frame and focus on hard instances, and (2) grouping codebooks and
processing groups in parallel. Experiments show our proposed models achieve
competitive results to state-of-the-art baselines in terms of content accuracy,
speaker similarity, audio quality, and inference speed while being suitable for
low-latency streaming applications.Summary
AI-Generated Summary