Stable Audio Open
Stable Audio Open
July 19, 2024
Autori: Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons
cs.AI
Abstract
I modelli generativi aperti sono di vitale importanza per la comunità, poiché consentono di effettuare fine-tuning e fungono da baseline quando si presentano nuovi modelli. Tuttavia, la maggior parte degli attuali modelli di testo-audio sono privati e non accessibili ad artisti e ricercatori che desiderano costruirvi sopra. Qui descriviamo l'architettura e il processo di addestramento di un nuovo modello testo-audio a pesi aperti, addestrato con dati Creative Commons. La nostra valutazione mostra che le prestazioni del modello sono competitive con lo stato dell'arte su varie metriche. In particolare, i risultati riportati per FDopenl3 (che misura il realismo delle generazioni) dimostrano il suo potenziale per la sintesi di suoni stereo di alta qualità a 44.1kHz.
English
Open generative models are vitally important for the community, allowing for
fine-tunes and serving as baselines when presenting new models. However, most
current text-to-audio models are private and not accessible for artists and
researchers to build upon. Here we describe the architecture and training
process of a new open-weights text-to-audio model trained with Creative Commons
data. Our evaluation shows that the model's performance is competitive with the
state-of-the-art across various metrics. Notably, the reported FDopenl3 results
(measuring the realism of the generations) showcase its potential for
high-quality stereo sound synthesis at 44.1kHz.