SoundStorm: Эффективное параллельное генерация аудио

Аннотация

Мы представляем SoundStorm — модель для эффективной неавторегрессивной генерации аудио. SoundStorm принимает на вход семантические токены AudioLM и использует двунаправленное внимание и параллельное декодирование на основе уверенности для генерации токенов нейронного аудиокодека. По сравнению с авторегрессивным подходом генерации AudioLM, наша модель создает аудио того же качества, но с большей согласованностью голоса и акустических условий, при этом работая на два порядка быстрее. SoundStorm генерирует 30 секунд аудио за 0,5 секунды на TPU-v4. Мы демонстрируем способность нашей модели масштабировать генерацию аудио на более длинные последовательности, синтезируя высококачественные, естественные диалоговые сегменты на основе транскрипта с аннотацией смены говорящих и короткого промпта с голосами участников.

English

We present SoundStorm, a model for efficient, non-autoregressive audio generation. SoundStorm receives as input the semantic tokens of AudioLM, and relies on bidirectional attention and confidence-based parallel decoding to generate the tokens of a neural audio codec. Compared to the autoregressive generation approach of AudioLM, our model produces audio of the same quality and with higher consistency in voice and acoustic conditions, while being two orders of magnitude faster. SoundStorm generates 30 seconds of audio in 0.5 seconds on a TPU-v4. We demonstrate the ability of our model to scale audio generation to longer sequences by synthesizing high-quality, natural dialogue segments, given a transcript annotated with speaker turns and a short prompt with the speakers' voices.

SoundStorm: Эффективное параллельное генерация аудио

SoundStorm: Efficient Parallel Audio Generation

Аннотация

Support