Audiobox: Vereinheitlichte Audiogenerierung mit natürlichen Sprachprompts
Audiobox: Unified Audio Generation with Natural Language Prompts
December 25, 2023
Autoren: Apoorv Vyas, Bowen Shi, Matthew Le, Andros Tjandra, Yi-Chiao Wu, Baishan Guo, Jiemin Zhang, Xinyue Zhang, Robert Adkins, William Ngan, Jeff Wang, Ivan Cruz, Bapi Akula, Akinniyi Akinyemi, Brian Ellis, Rashel Moritz, Yael Yungster, Alice Rakotoarison, Liang Tan, Chris Summers, Carleigh Wood, Joshua Lane, Mary Williamson, Wei-Ning Hsu
cs.AI
Zusammenfassung
Audio ist ein wesentlicher Bestandteil unseres Lebens, doch die Erstellung erfordert oft Fachwissen und ist zeitaufwendig. Die Forschungsgemeinschaft hat im vergangenen Jahr große Fortschritte bei der Verbesserung der Leistung großskaliger audio-generativer Modelle für eine einzelne Modalität (Sprache, Klang oder Musik) erzielt, indem leistungsfähigere generative Modelle und skalierte Daten eingesetzt wurden. Diese Modelle weisen jedoch in mehreren Aspekten mangelnde Steuerbarkeit auf: Sprachgenerationsmodelle können keine neuen Stile basierend auf Textbeschreibungen synthetisieren und sind in der Domänenabdeckung, wie z.B. Außenumgebungen, eingeschränkt; Klanggenerationsmodelle bieten nur grobkörnige Steuerung basierend auf Beschreibungen wie „eine sprechende Person“ und erzeugen nur undeutliche menschliche Stimmen. Dieses Papier stellt Audiobox vor, ein einheitliches Modell basierend auf Flow-Matching, das in der Lage ist, verschiedene Audiomodalitäten zu generieren. Wir entwickeln beschreibungsbasierte und beispielbasierte Prompting-Methoden, um die Steuerbarkeit zu verbessern und die Paradigmen der Sprach- und Klanggenerierung zu vereinheitlichen. Wir ermöglichen es, Transkript, Stimme und andere Audiostile unabhängig voneinander zu steuern, wenn Sprache generiert wird. Um die Modellgeneralisierung bei begrenzten Labels zu verbessern, passen wir ein selbstüberwachtes Infilling-Ziel an, um große Mengen ungelabelter Audiodaten vorzutrainieren. Audiobox setzt neue Maßstäbe in der Sprach- und Klanggenerierung (0,745 Ähnlichkeit auf Librispeech für Zero-Shot TTS; 0,77 FAD auf AudioCaps für Text-zu-Klang) und erschließt neue Methoden zur Generierung von Audio mit neuartigen Stimm- und Akustikstilen. Wir integrieren weiterhin Bespoke Solvers, die die Generierung um mehr als das 25-fache im Vergleich zum standardmäßigen ODE-Solver für Flow-Matching beschleunigen, ohne Leistungseinbußen bei mehreren Aufgaben. Unsere Demo ist verfügbar unter https://audiobox.metademolab.com/.
English
Audio is an essential part of our life, but creating it often requires
expertise and is time-consuming. Research communities have made great progress
over the past year advancing the performance of large scale audio generative
models for a single modality (speech, sound, or music) through adopting more
powerful generative models and scaling data. However, these models lack
controllability in several aspects: speech generation models cannot synthesize
novel styles based on text description and are limited on domain coverage such
as outdoor environments; sound generation models only provide coarse-grained
control based on descriptions like "a person speaking" and would only generate
mumbling human voices. This paper presents Audiobox, a unified model based on
flow-matching that is capable of generating various audio modalities. We design
description-based and example-based prompting to enhance controllability and
unify speech and sound generation paradigms. We allow transcript, vocal, and
other audio styles to be controlled independently when generating speech. To
improve model generalization with limited labels, we adapt a self-supervised
infilling objective to pre-train on large quantities of unlabeled audio.
Audiobox sets new benchmarks on speech and sound generation (0.745 similarity
on Librispeech for zero-shot TTS; 0.77 FAD on AudioCaps for text-to-sound) and
unlocks new methods for generating audio with novel vocal and acoustic styles.
We further integrate Bespoke Solvers, which speeds up generation by over 25
times compared to the default ODE solver for flow-matching, without loss of
performance on several tasks. Our demo is available at
https://audiobox.metademolab.com/