SoundStorm: Geração Eficiente de Áudio em Paralelo

Resumo

Apresentamos o SoundStorm, um modelo para geração eficiente e não autorregressiva de áudio. O SoundStorm recebe como entrada os tokens semânticos do AudioLM e se baseia em atenção bidirecional e decodificação paralela baseada em confiança para gerar os tokens de um codec neural de áudio. Em comparação com a abordagem de geração autorregressiva do AudioLM, nosso modelo produz áudio da mesma qualidade e com maior consistência na voz e nas condições acústicas, sendo duas ordens de magnitude mais rápido. O SoundStorm gera 30 segundos de áudio em 0,5 segundos em um TPU-v4. Demonstramos a capacidade do nosso modelo de escalar a geração de áudio para sequências mais longas, sintetizando segmentos de diálogo de alta qualidade e naturais, dado uma transcrição anotada com turnos de fala e um prompt curto com as vozes dos falantes.

English

We present SoundStorm, a model for efficient, non-autoregressive audio generation. SoundStorm receives as input the semantic tokens of AudioLM, and relies on bidirectional attention and confidence-based parallel decoding to generate the tokens of a neural audio codec. Compared to the autoregressive generation approach of AudioLM, our model produces audio of the same quality and with higher consistency in voice and acoustic conditions, while being two orders of magnitude faster. SoundStorm generates 30 seconds of audio in 0.5 seconds on a TPU-v4. We demonstrate the ability of our model to scale audio generation to longer sequences by synthesizing high-quality, natural dialogue segments, given a transcript annotated with speaker turns and a short prompt with the speakers' voices.

SoundStorm: Geração Eficiente de Áudio em Paralelo

SoundStorm: Efficient Parallel Audio Generation

Resumo

Support