Audiobox: Унифицированная генерация аудио с использованием текстовых запросов на естественном языке
Audiobox: Unified Audio Generation with Natural Language Prompts
December 25, 2023
Авторы: Apoorv Vyas, Bowen Shi, Matthew Le, Andros Tjandra, Yi-Chiao Wu, Baishan Guo, Jiemin Zhang, Xinyue Zhang, Robert Adkins, William Ngan, Jeff Wang, Ivan Cruz, Bapi Akula, Akinniyi Akinyemi, Brian Ellis, Rashel Moritz, Yael Yungster, Alice Rakotoarison, Liang Tan, Chris Summers, Carleigh Wood, Joshua Lane, Mary Williamson, Wei-Ning Hsu
cs.AI
Аннотация
Аудио является неотъемлемой частью нашей жизни, но его создание часто требует экспертных знаний и занимает много времени. За последний год исследовательские сообщества добились значительного прогресса в повышении производительности крупномасштабных генеративных моделей для одного типа аудио (речь, звуки или музыка) за счет внедрения более мощных генеративных моделей и масштабирования данных. Однако этим моделям не хватает управляемости в нескольких аспектах: модели генерации речи не могут синтезировать новые стили на основе текстового описания и ограничены в охвате областей, таких как уличные среды; модели генерации звуков предоставляют лишь грубый контроль на основе описаний вроде "человек говорит" и генерируют лишь неразборчивые человеческие голоса. В данной статье представлена Audiobox — унифицированная модель на основе flow-matching, способная генерировать различные аудиомодальности. Мы разработали подсказки на основе описаний и примеров для повышения управляемости и объединения парадигм генерации речи и звуков. Мы позволяем независимо управлять транскриптом, вокалом и другими аудиостилями при генерации речи. Для улучшения обобщающей способности модели при ограниченных метках мы адаптировали самообучаемую задачу заполнения для предварительного обучения на больших объемах немаркированного аудио. Audiobox устанавливает новые стандарты в генерации речи и звуков (0.745 сходства на Librispeech для zero-shot TTS; 0.77 FAD на AudioCaps для текста в звук) и открывает новые методы генерации аудио с уникальными вокальными и акустическими стилями. Мы также интегрировали Bespoke Solvers, что ускоряет генерацию более чем в 25 раз по сравнению с стандартным ODE-решателем для flow-matching, без потери производительности в нескольких задачах. Наша демонстрация доступна по адресу https://audiobox.metademolab.com/.
English
Audio is an essential part of our life, but creating it often requires
expertise and is time-consuming. Research communities have made great progress
over the past year advancing the performance of large scale audio generative
models for a single modality (speech, sound, or music) through adopting more
powerful generative models and scaling data. However, these models lack
controllability in several aspects: speech generation models cannot synthesize
novel styles based on text description and are limited on domain coverage such
as outdoor environments; sound generation models only provide coarse-grained
control based on descriptions like "a person speaking" and would only generate
mumbling human voices. This paper presents Audiobox, a unified model based on
flow-matching that is capable of generating various audio modalities. We design
description-based and example-based prompting to enhance controllability and
unify speech and sound generation paradigms. We allow transcript, vocal, and
other audio styles to be controlled independently when generating speech. To
improve model generalization with limited labels, we adapt a self-supervised
infilling objective to pre-train on large quantities of unlabeled audio.
Audiobox sets new benchmarks on speech and sound generation (0.745 similarity
on Librispeech for zero-shot TTS; 0.77 FAD on AudioCaps for text-to-sound) and
unlocks new methods for generating audio with novel vocal and acoustic styles.
We further integrate Bespoke Solvers, which speeds up generation by over 25
times compared to the default ODE solver for flow-matching, without loss of
performance on several tasks. Our demo is available at
https://audiobox.metademolab.com/