Stable Audio Open
Stable Audio Open
July 19, 2024
Auteurs: Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons
cs.AI
Résumé
Les modèles génératifs ouverts sont d'une importance cruciale pour la communauté, permettant des ajustements fins et servant de références lors de la présentation de nouveaux modèles. Cependant, la plupart des modèles actuels de conversion de texte en audio sont privés et inaccessibles pour les artistes et les chercheurs souhaitant les exploiter. Nous décrivons ici l'architecture et le processus d'entraînement d'un nouveau modèle de conversion de texte en audio à poids ouverts, entraîné avec des données sous licence Creative Commons. Notre évaluation montre que les performances du modèle sont compétitives par rapport à l'état de l'art sur diverses métriques. Notamment, les résultats rapportés pour FDopenl3 (mesurant le réalisme des générations) mettent en évidence son potentiel pour la synthèse de sons stéréo de haute qualité à 44,1 kHz.
English
Open generative models are vitally important for the community, allowing for
fine-tunes and serving as baselines when presenting new models. However, most
current text-to-audio models are private and not accessible for artists and
researchers to build upon. Here we describe the architecture and training
process of a new open-weights text-to-audio model trained with Creative Commons
data. Our evaluation shows that the model's performance is competitive with the
state-of-the-art across various metrics. Notably, the reported FDopenl3 results
(measuring the realism of the generations) showcase its potential for
high-quality stereo sound synthesis at 44.1kHz.Summary
AI-Generated Summary