Audiobox: Uniforme Audiogeneratie met Natuurlijke Taalprompts
Audiobox: Unified Audio Generation with Natural Language Prompts
December 25, 2023
Auteurs: Apoorv Vyas, Bowen Shi, Matthew Le, Andros Tjandra, Yi-Chiao Wu, Baishan Guo, Jiemin Zhang, Xinyue Zhang, Robert Adkins, William Ngan, Jeff Wang, Ivan Cruz, Bapi Akula, Akinniyi Akinyemi, Brian Ellis, Rashel Moritz, Yael Yungster, Alice Rakotoarison, Liang Tan, Chris Summers, Carleigh Wood, Joshua Lane, Mary Williamson, Wei-Ning Hsu
cs.AI
Samenvatting
Audio is een essentieel onderdeel van ons leven, maar het creëren ervan vereist vaak expertise en is tijdrovend. Onderzoeksgemeenschappen hebben het afgelopen jaar grote vooruitgang geboekt in het verbeteren van de prestaties van grootschalige audio-generatieve modellen voor een enkele modaliteit (spraak, geluid of muziek) door krachtigere generatieve modellen te gebruiken en data te schalen. Deze modellen hebben echter beperkingen in controleerbaarheid op verschillende vlakken: spraakgeneratiemodellen kunnen geen nieuwe stijlen synthetiseren op basis van tekstbeschrijvingen en zijn beperkt in domeindekking, zoals buitenomgevingen; geluidsgeneratiemodellen bieden alleen grove controle op basis van beschrijvingen zoals "een persoon die spreekt" en genereren slechts mompelende menselijke stemmen. Dit artikel introduceert Audiobox, een uniform model gebaseerd op flow-matching dat in staat is verschillende audiomodaliteiten te genereren. We ontwerpen beschrijvingsgebaseerde en voorbeeldgebaseerde prompting om de controleerbaarheid te vergroten en de paradigma's voor spraak- en geluidsgeneratie te verenigen. We zorgen ervoor dat transcripten, vocale en andere audiostijlen onafhankelijk kunnen worden gecontroleerd bij het genereren van spraak. Om de generalisatie van het model te verbeteren met beperkte labels, passen we een zelfsupervised infilling-doel aan om voor te trainen op grote hoeveelheden ongelabelde audio. Audiobox stelt nieuwe benchmarks voor spraak- en geluidsgeneratie (0.745 gelijkenis op Librispeech voor zero-shot TTS; 0.77 FAD op AudioCaps voor tekst-naar-geluid) en opent nieuwe methoden voor het genereren van audio met nieuwe vocale en akoestische stijlen. We integreren verder Bespoke Solvers, wat de generatie meer dan 25 keer versnelt in vergelijking met de standaard ODE-solver voor flow-matching, zonder prestatieverlies op verschillende taken. Onze demo is beschikbaar op https://audiobox.metademolab.com/.
English
Audio is an essential part of our life, but creating it often requires
expertise and is time-consuming. Research communities have made great progress
over the past year advancing the performance of large scale audio generative
models for a single modality (speech, sound, or music) through adopting more
powerful generative models and scaling data. However, these models lack
controllability in several aspects: speech generation models cannot synthesize
novel styles based on text description and are limited on domain coverage such
as outdoor environments; sound generation models only provide coarse-grained
control based on descriptions like "a person speaking" and would only generate
mumbling human voices. This paper presents Audiobox, a unified model based on
flow-matching that is capable of generating various audio modalities. We design
description-based and example-based prompting to enhance controllability and
unify speech and sound generation paradigms. We allow transcript, vocal, and
other audio styles to be controlled independently when generating speech. To
improve model generalization with limited labels, we adapt a self-supervised
infilling objective to pre-train on large quantities of unlabeled audio.
Audiobox sets new benchmarks on speech and sound generation (0.745 similarity
on Librispeech for zero-shot TTS; 0.77 FAD on AudioCaps for text-to-sound) and
unlocks new methods for generating audio with novel vocal and acoustic styles.
We further integrate Bespoke Solvers, which speeds up generation by over 25
times compared to the default ODE solver for flow-matching, without loss of
performance on several tasks. Our demo is available at
https://audiobox.metademolab.com/