SoundStorm : Génération audio parallèle efficace
SoundStorm: Efficient Parallel Audio Generation
May 16, 2023
Auteurs: Zalán Borsos, Matt Sharifi, Damien Vincent, Eugene Kharitonov, Neil Zeghidour, Marco Tagliasacchi
cs.AI
Résumé
Nous présentons SoundStorm, un modèle pour la génération efficace et non autorégressive d'audio. SoundStorm prend en entrée les tokens sémantiques d'AudioLM et s'appuie sur une attention bidirectionnelle et un décodage parallèle basé sur la confiance pour générer les tokens d'un codec audio neuronal. Par rapport à l'approche de génération autorégressive d'AudioLM, notre modèle produit un audio de même qualité avec une plus grande cohérence dans la voix et les conditions acoustiques, tout en étant deux ordres de grandeur plus rapide. SoundStorm génère 30 secondes d'audio en 0,5 seconde sur un TPU-v4. Nous démontrons la capacité de notre modèle à étendre la génération d'audio à des séquences plus longues en synthétisant des segments de dialogue naturels et de haute qualité, à partir d'une transcription annotée avec les tours de parole et d'un court prompt contenant les voix des locuteurs.
English
We present SoundStorm, a model for efficient, non-autoregressive audio
generation. SoundStorm receives as input the semantic tokens of AudioLM, and
relies on bidirectional attention and confidence-based parallel decoding to
generate the tokens of a neural audio codec. Compared to the autoregressive
generation approach of AudioLM, our model produces audio of the same quality
and with higher consistency in voice and acoustic conditions, while being two
orders of magnitude faster. SoundStorm generates 30 seconds of audio in 0.5
seconds on a TPU-v4. We demonstrate the ability of our model to scale audio
generation to longer sequences by synthesizing high-quality, natural dialogue
segments, given a transcript annotated with speaker turns and a short prompt
with the speakers' voices.