Audiobox : Génération audio unifiée via des prompts en langage naturel
Audiobox: Unified Audio Generation with Natural Language Prompts
December 25, 2023
Auteurs: Apoorv Vyas, Bowen Shi, Matthew Le, Andros Tjandra, Yi-Chiao Wu, Baishan Guo, Jiemin Zhang, Xinyue Zhang, Robert Adkins, William Ngan, Jeff Wang, Ivan Cruz, Bapi Akula, Akinniyi Akinyemi, Brian Ellis, Rashel Moritz, Yael Yungster, Alice Rakotoarison, Liang Tan, Chris Summers, Carleigh Wood, Joshua Lane, Mary Williamson, Wei-Ning Hsu
cs.AI
Résumé
L'audio est un élément essentiel de notre vie, mais sa création nécessite souvent une expertise et est chronophage. Les communautés de recherche ont réalisé des progrès significatifs au cours de l'année écoulée en améliorant les performances des modèles génératifs audio à grande échelle pour une modalité unique (parole, son ou musique) grâce à l'adoption de modèles génératifs plus puissants et à l'augmentation des données. Cependant, ces modèles manquent de contrôlabilité à plusieurs égards : les modèles de génération de parole ne peuvent pas synthétiser de nouveaux styles basés sur des descriptions textuelles et sont limités en termes de couverture de domaines, comme les environnements extérieurs ; les modèles de génération de son ne fournissent qu'un contrôle grossier basé sur des descriptions telles que "une personne qui parle" et ne génèrent que des voix humaines indistinctes. Ce papier présente Audiobox, un modèle unifié basé sur le "flow-matching" capable de générer diverses modalités audio. Nous concevons des prompts basés sur des descriptions et des exemples pour améliorer la contrôlabilité et unifier les paradigmes de génération de parole et de son. Nous permettons que la transcription, les caractéristiques vocales et d'autres styles audio soient contrôlés indépendamment lors de la génération de parole. Pour améliorer la généralisation du modèle avec un nombre limité d'étiquettes, nous adaptons un objectif d'auto-supervision par remplissage pour pré-entraîner sur de grandes quantités d'audio non étiqueté. Audiobox établit de nouveaux référentiels en génération de parole et de son (0,745 de similarité sur Librispeech pour la synthèse vocale zero-shot ; 0,77 FAD sur AudioCaps pour la génération de son à partir de texte) et ouvre de nouvelles méthodes pour générer de l'audio avec des styles vocaux et acoustiques novateurs. Nous intégrons en outre des "Bespoke Solvers", qui accélèrent la génération de plus de 25 fois par rapport au solveur ODE par défaut pour le "flow-matching", sans perte de performance sur plusieurs tâches. Notre démo est disponible à l'adresse https://audiobox.metademolab.com/.
English
Audio is an essential part of our life, but creating it often requires
expertise and is time-consuming. Research communities have made great progress
over the past year advancing the performance of large scale audio generative
models for a single modality (speech, sound, or music) through adopting more
powerful generative models and scaling data. However, these models lack
controllability in several aspects: speech generation models cannot synthesize
novel styles based on text description and are limited on domain coverage such
as outdoor environments; sound generation models only provide coarse-grained
control based on descriptions like "a person speaking" and would only generate
mumbling human voices. This paper presents Audiobox, a unified model based on
flow-matching that is capable of generating various audio modalities. We design
description-based and example-based prompting to enhance controllability and
unify speech and sound generation paradigms. We allow transcript, vocal, and
other audio styles to be controlled independently when generating speech. To
improve model generalization with limited labels, we adapt a self-supervised
infilling objective to pre-train on large quantities of unlabeled audio.
Audiobox sets new benchmarks on speech and sound generation (0.745 similarity
on Librispeech for zero-shot TTS; 0.77 FAD on AudioCaps for text-to-sound) and
unlocks new methods for generating audio with novel vocal and acoustic styles.
We further integrate Bespoke Solvers, which speeds up generation by over 25
times compared to the default ODE solver for flow-matching, without loss of
performance on several tasks. Our demo is available at
https://audiobox.metademolab.com/