ChatPaper.aiChatPaper

SoundStorm : Génération audio parallèle efficace

SoundStorm: Efficient Parallel Audio Generation

May 16, 2023
Auteurs: Zalán Borsos, Matt Sharifi, Damien Vincent, Eugene Kharitonov, Neil Zeghidour, Marco Tagliasacchi
cs.AI

Résumé

Nous présentons SoundStorm, un modèle pour la génération efficace et non autorégressive d'audio. SoundStorm prend en entrée les tokens sémantiques d'AudioLM et s'appuie sur une attention bidirectionnelle et un décodage parallèle basé sur la confiance pour générer les tokens d'un codec audio neuronal. Par rapport à l'approche de génération autorégressive d'AudioLM, notre modèle produit un audio de même qualité avec une plus grande cohérence dans la voix et les conditions acoustiques, tout en étant deux ordres de grandeur plus rapide. SoundStorm génère 30 secondes d'audio en 0,5 seconde sur un TPU-v4. Nous démontrons la capacité de notre modèle à étendre la génération d'audio à des séquences plus longues en synthétisant des segments de dialogue naturels et de haute qualité, à partir d'une transcription annotée avec les tours de parole et d'un court prompt contenant les voix des locuteurs.
English
We present SoundStorm, a model for efficient, non-autoregressive audio generation. SoundStorm receives as input the semantic tokens of AudioLM, and relies on bidirectional attention and confidence-based parallel decoding to generate the tokens of a neural audio codec. Compared to the autoregressive generation approach of AudioLM, our model produces audio of the same quality and with higher consistency in voice and acoustic conditions, while being two orders of magnitude faster. SoundStorm generates 30 seconds of audio in 0.5 seconds on a TPU-v4. We demonstrate the ability of our model to scale audio generation to longer sequences by synthesizing high-quality, natural dialogue segments, given a transcript annotated with speaker turns and a short prompt with the speakers' voices.
PDF138December 15, 2024