LiveSpeech: オーディオ離散コードの自己回帰モデリングによる低遅延ゼロショットテキスト音声合成
LiveSpeech: Low-Latency Zero-shot Text-to-Speech via Autoregressive Modeling of Audio Discrete Codes
June 5, 2024
著者: Trung Dang, David Aponte, Dung Tran, Kazuhito Koishida
cs.AI
要旨
先行研究では、ニューラル音声コーデックによって得られたオーディオトークンに対して生成型言語モデルを使用することで、ゼロショットテキスト音声合成を実証してきました。しかし、それらを低遅延シナリオに適応させることは依然として課題です。本論文では、LiveSpeechを提案します。これは、完全に自己回帰的な言語モデルに基づくゼロショットテキスト音声合成のアプローチであり、出力オーディオの低遅延ストリーミングを可能にします。単一のデコードステップ内で複数のトークン予測を可能にするために、(1)各フレームにおけるコードブックの貢献度を考慮し、難しいインスタンスに焦点を当てた適応型コードブック損失重みの使用、および(2)コードブックをグループ化し、グループを並列に処理することを提案します。実験結果は、提案モデルがコンテンツの正確性、話者類似性、音声品質、推論速度において最先端のベースラインと競合する結果を達成し、低遅延ストリーミングアプリケーションに適していることを示しています。
English
Prior works have demonstrated zero-shot text-to-speech by using a generative
language model on audio tokens obtained via a neural audio codec. It is still
challenging, however, to adapt them to low-latency scenarios. In this paper, we
present LiveSpeech - a fully autoregressive language model-based approach for
zero-shot text-to-speech, enabling low-latency streaming of the output audio.
To allow multiple token prediction within a single decoding step, we propose
(1) using adaptive codebook loss weights that consider codebook contribution in
each frame and focus on hard instances, and (2) grouping codebooks and
processing groups in parallel. Experiments show our proposed models achieve
competitive results to state-of-the-art baselines in terms of content accuracy,
speaker similarity, audio quality, and inference speed while being suitable for
low-latency streaming applications.Summary
AI-Generated Summary