LiveSpeech: Echtzeit-Nullschuss-Text-zu-Sprache mittels autoregressiver Modellierung von Audio-Diskretcodes

papers.abstract

Frühere Arbeiten haben die Null-Schuss Text-in-Sprache durch die Verwendung eines generativen Sprachmodells auf Audio-Token demonstriert, die über einen neuronalen Audiocodec erhalten wurden. Es ist jedoch immer noch eine Herausforderung, sie an Szenarien mit geringer Latenz anzupassen. In diesem Artikel präsentieren wir LiveSpeech - einen vollständig autoregressiven Ansatz auf der Basis eines Sprachmodells für Null-Schuss Text-in-Sprache, der das Streaming der Ausgabe-Audio mit geringer Latenz ermöglicht. Um die Vorhersage mehrerer Token innerhalb eines einzelnen Decodierungsschritts zu ermöglichen, schlagen wir vor, (1) adaptive Codebuch-Verlustgewichte zu verwenden, die den Codebuchbeitrag in jedem Frame berücksichtigen und sich auf schwierige Instanzen konzentrieren, und (2) Codebücher zu gruppieren und Gruppen parallel zu verarbeiten. Experimente zeigen, dass unsere vorgeschlagenen Modelle wettbewerbsfähige Ergebnisse im Hinblick auf Inhaltsgenauigkeit, Sprecherähnlichkeit, Audioqualität und Inferenzgeschwindigkeit im Vergleich zu State-of-the-Art-Baselines erzielen, während sie für Streaming-Anwendungen mit geringer Latenz geeignet sind.

English

Prior works have demonstrated zero-shot text-to-speech by using a generative language model on audio tokens obtained via a neural audio codec. It is still challenging, however, to adapt them to low-latency scenarios. In this paper, we present LiveSpeech - a fully autoregressive language model-based approach for zero-shot text-to-speech, enabling low-latency streaming of the output audio. To allow multiple token prediction within a single decoding step, we propose (1) using adaptive codebook loss weights that consider codebook contribution in each frame and focus on hard instances, and (2) grouping codebooks and processing groups in parallel. Experiments show our proposed models achieve competitive results to state-of-the-art baselines in terms of content accuracy, speaker similarity, audio quality, and inference speed while being suitable for low-latency streaming applications.

LiveSpeech: Echtzeit-Nullschuss-Text-zu-Sprache mittels autoregressiver Modellierung von Audio-Diskretcodes

LiveSpeech: Low-Latency Zero-shot Text-to-Speech via Autoregressive Modeling of Audio Discrete Codes

papers.abstract

Support