LiveSpeech: Echtzeit-Nullschuss-Text-zu-Sprache mittels autoregressiver Modellierung von Audio-Diskretcodes
LiveSpeech: Low-Latency Zero-shot Text-to-Speech via Autoregressive Modeling of Audio Discrete Codes
June 5, 2024
Autoren: Trung Dang, David Aponte, Dung Tran, Kazuhito Koishida
cs.AI
Zusammenfassung
Frühere Arbeiten haben die Null-Schuss Text-in-Sprache durch die Verwendung eines generativen Sprachmodells auf Audio-Token demonstriert, die über einen neuronalen Audiocodec erhalten wurden. Es ist jedoch immer noch eine Herausforderung, sie an Szenarien mit geringer Latenz anzupassen. In diesem Artikel präsentieren wir LiveSpeech - einen vollständig autoregressiven Ansatz auf der Basis eines Sprachmodells für Null-Schuss Text-in-Sprache, der das Streaming der Ausgabe-Audio mit geringer Latenz ermöglicht. Um die Vorhersage mehrerer Token innerhalb eines einzelnen Decodierungsschritts zu ermöglichen, schlagen wir vor, (1) adaptive Codebuch-Verlustgewichte zu verwenden, die den Codebuchbeitrag in jedem Frame berücksichtigen und sich auf schwierige Instanzen konzentrieren, und (2) Codebücher zu gruppieren und Gruppen parallel zu verarbeiten. Experimente zeigen, dass unsere vorgeschlagenen Modelle wettbewerbsfähige Ergebnisse im Hinblick auf Inhaltsgenauigkeit, Sprecherähnlichkeit, Audioqualität und Inferenzgeschwindigkeit im Vergleich zu State-of-the-Art-Baselines erzielen, während sie für Streaming-Anwendungen mit geringer Latenz geeignet sind.
English
Prior works have demonstrated zero-shot text-to-speech by using a generative
language model on audio tokens obtained via a neural audio codec. It is still
challenging, however, to adapt them to low-latency scenarios. In this paper, we
present LiveSpeech - a fully autoregressive language model-based approach for
zero-shot text-to-speech, enabling low-latency streaming of the output audio.
To allow multiple token prediction within a single decoding step, we propose
(1) using adaptive codebook loss weights that consider codebook contribution in
each frame and focus on hard instances, and (2) grouping codebooks and
processing groups in parallel. Experiments show our proposed models achieve
competitive results to state-of-the-art baselines in terms of content accuracy,
speaker similarity, audio quality, and inference speed while being suitable for
low-latency streaming applications.Summary
AI-Generated Summary