Audiobox: Geração Unificada de Áudio com Prompts de Linguagem Natural
Audiobox: Unified Audio Generation with Natural Language Prompts
December 25, 2023
Autores: Apoorv Vyas, Bowen Shi, Matthew Le, Andros Tjandra, Yi-Chiao Wu, Baishan Guo, Jiemin Zhang, Xinyue Zhang, Robert Adkins, William Ngan, Jeff Wang, Ivan Cruz, Bapi Akula, Akinniyi Akinyemi, Brian Ellis, Rashel Moritz, Yael Yungster, Alice Rakotoarison, Liang Tan, Chris Summers, Carleigh Wood, Joshua Lane, Mary Williamson, Wei-Ning Hsu
cs.AI
Resumo
O áudio é uma parte essencial de nossas vidas, mas sua criação frequentemente requer expertise e consome muito tempo. As comunidades de pesquisa fizeram grandes avanços no último ano, melhorando o desempenho de modelos generativos de áudio em grande escala para uma única modalidade (fala, som ou música) ao adotar modelos generativos mais poderosos e escalar os dados. No entanto, esses modelos carecem de controlabilidade em vários aspectos: modelos de geração de fala não conseguem sintetizar novos estilos com base em descrições textuais e são limitados na cobertura de domínios, como ambientes externos; modelos de geração de som oferecem apenas controle de alto nível com base em descrições como "uma pessoa falando" e geram apenas vozes humanas indistintas. Este artigo apresenta o Audiobox, um modelo unificado baseado em correspondência de fluxo (flow-matching) capaz de gerar diversas modalidades de áudio. Projetamos prompts baseados em descrições e exemplos para aprimorar a controlabilidade e unificar os paradigmas de geração de fala e som. Permitimos que transcrições, características vocais e outros estilos de áudio sejam controlados de forma independente na geração de fala. Para melhorar a generalização do modelo com rótulos limitados, adaptamos um objetivo de preenchimento auto-supervisionado para pré-treinar grandes quantidades de áudio não rotulado. O Audiobox estabelece novos benchmarks em geração de fala e som (0.745 de similaridade no Librispeech para TTS zero-shot; 0.77 FAD no AudioCaps para texto-para-som) e desbloqueia novos métodos para gerar áudio com estilos vocais e acústicos inéditos. Além disso, integramos os Bespoke Solvers, que aceleram a geração em mais de 25 vezes em comparação com o solucionador ODE padrão para correspondência de fluxo, sem perda de desempenho em várias tarefas. Nossa demonstração está disponível em https://audiobox.metademolab.com/.
English
Audio is an essential part of our life, but creating it often requires
expertise and is time-consuming. Research communities have made great progress
over the past year advancing the performance of large scale audio generative
models for a single modality (speech, sound, or music) through adopting more
powerful generative models and scaling data. However, these models lack
controllability in several aspects: speech generation models cannot synthesize
novel styles based on text description and are limited on domain coverage such
as outdoor environments; sound generation models only provide coarse-grained
control based on descriptions like "a person speaking" and would only generate
mumbling human voices. This paper presents Audiobox, a unified model based on
flow-matching that is capable of generating various audio modalities. We design
description-based and example-based prompting to enhance controllability and
unify speech and sound generation paradigms. We allow transcript, vocal, and
other audio styles to be controlled independently when generating speech. To
improve model generalization with limited labels, we adapt a self-supervised
infilling objective to pre-train on large quantities of unlabeled audio.
Audiobox sets new benchmarks on speech and sound generation (0.745 similarity
on Librispeech for zero-shot TTS; 0.77 FAD on AudioCaps for text-to-sound) and
unlocks new methods for generating audio with novel vocal and acoustic styles.
We further integrate Bespoke Solvers, which speeds up generation by over 25
times compared to the default ODE solver for flow-matching, without loss of
performance on several tasks. Our demo is available at
https://audiobox.metademolab.com/