SoundStorm : Génération audio parallèle efficace

Résumé

Nous présentons SoundStorm, un modèle pour la génération efficace et non autorégressive d'audio. SoundStorm prend en entrée les tokens sémantiques d'AudioLM et s'appuie sur une attention bidirectionnelle et un décodage parallèle basé sur la confiance pour générer les tokens d'un codec audio neuronal. Par rapport à l'approche de génération autorégressive d'AudioLM, notre modèle produit un audio de même qualité avec une plus grande cohérence dans la voix et les conditions acoustiques, tout en étant deux ordres de grandeur plus rapide. SoundStorm génère 30 secondes d'audio en 0,5 seconde sur un TPU-v4. Nous démontrons la capacité de notre modèle à étendre la génération d'audio à des séquences plus longues en synthétisant des segments de dialogue naturels et de haute qualité, à partir d'une transcription annotée avec les tours de parole et d'un court prompt contenant les voix des locuteurs.

English

We present SoundStorm, a model for efficient, non-autoregressive audio generation. SoundStorm receives as input the semantic tokens of AudioLM, and relies on bidirectional attention and confidence-based parallel decoding to generate the tokens of a neural audio codec. Compared to the autoregressive generation approach of AudioLM, our model produces audio of the same quality and with higher consistency in voice and acoustic conditions, while being two orders of magnitude faster. SoundStorm generates 30 seconds of audio in 0.5 seconds on a TPU-v4. We demonstrate the ability of our model to scale audio generation to longer sequences by synthesizing high-quality, natural dialogue segments, given a transcript annotated with speaker turns and a short prompt with the speakers' voices.

SoundStorm : Génération audio parallèle efficace

SoundStorm: Efficient Parallel Audio Generation

Résumé

Support