ChatPaper.aiChatPaper

Audiobox: Generación unificada de audio con indicaciones en lenguaje natural

Audiobox: Unified Audio Generation with Natural Language Prompts

December 25, 2023
Autores: Apoorv Vyas, Bowen Shi, Matthew Le, Andros Tjandra, Yi-Chiao Wu, Baishan Guo, Jiemin Zhang, Xinyue Zhang, Robert Adkins, William Ngan, Jeff Wang, Ivan Cruz, Bapi Akula, Akinniyi Akinyemi, Brian Ellis, Rashel Moritz, Yael Yungster, Alice Rakotoarison, Liang Tan, Chris Summers, Carleigh Wood, Joshua Lane, Mary Williamson, Wei-Ning Hsu
cs.AI

Resumen

El audio es una parte esencial de nuestra vida, pero su creación suele requerir experiencia y es un proceso que consume mucho tiempo. Las comunidades de investigación han logrado grandes avances durante el último año al mejorar el rendimiento de los modelos generativos de audio a gran escala para una sola modalidad (voz, sonido o música), mediante la adopción de modelos generativos más potentes y el escalado de datos. Sin embargo, estos modelos carecen de controlabilidad en varios aspectos: los modelos de generación de voz no pueden sintetizar estilos novedosos basados en descripciones textuales y tienen limitaciones en la cobertura de dominios, como entornos exteriores; los modelos de generación de sonido solo ofrecen un control de grano grueso basado en descripciones como "una persona hablando" y solo generan voces humanas ininteligibles. Este artículo presenta Audiobox, un modelo unificado basado en flow-matching que es capaz de generar diversas modalidades de audio. Diseñamos indicaciones basadas en descripciones y ejemplos para mejorar la controlabilidad y unificar los paradigmas de generación de voz y sonido. Permitimos que la transcripción, la voz y otros estilos de audio se controlen de manera independiente al generar voz. Para mejorar la generalización del modelo con etiquetas limitadas, adaptamos un objetivo de rellenado auto-supervisado para preentrenar con grandes cantidades de audio no etiquetado. Audiobox establece nuevos puntos de referencia en la generación de voz y sonido (0.745 de similitud en Librispeech para TTS zero-shot; 0.77 FAD en AudioCaps para texto a sonido) y desbloquea nuevos métodos para generar audio con estilos vocales y acústicos novedosos. Además, integramos Bespoke Solvers, que acelera la generación en más de 25 veces en comparación con el solucionador de EDO predeterminado para flow-matching, sin pérdida de rendimiento en varias tareas. Nuestra demostración está disponible en https://audiobox.metademolab.com/.
English
Audio is an essential part of our life, but creating it often requires expertise and is time-consuming. Research communities have made great progress over the past year advancing the performance of large scale audio generative models for a single modality (speech, sound, or music) through adopting more powerful generative models and scaling data. However, these models lack controllability in several aspects: speech generation models cannot synthesize novel styles based on text description and are limited on domain coverage such as outdoor environments; sound generation models only provide coarse-grained control based on descriptions like "a person speaking" and would only generate mumbling human voices. This paper presents Audiobox, a unified model based on flow-matching that is capable of generating various audio modalities. We design description-based and example-based prompting to enhance controllability and unify speech and sound generation paradigms. We allow transcript, vocal, and other audio styles to be controlled independently when generating speech. To improve model generalization with limited labels, we adapt a self-supervised infilling objective to pre-train on large quantities of unlabeled audio. Audiobox sets new benchmarks on speech and sound generation (0.745 similarity on Librispeech for zero-shot TTS; 0.77 FAD on AudioCaps for text-to-sound) and unlocks new methods for generating audio with novel vocal and acoustic styles. We further integrate Bespoke Solvers, which speeds up generation by over 25 times compared to the default ODE solver for flow-matching, without loss of performance on several tasks. Our demo is available at https://audiobox.metademolab.com/
PDF174December 15, 2024