Stable Audio Open
Stable Audio Open
July 19, 2024
Auteurs: Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons
cs.AI
Samenvatting
Open generatieve modellen zijn van cruciaal belang voor de gemeenschap, omdat ze fine-tuning mogelijk maken en als basis dienen bij de presentatie van nieuwe modellen. De meeste huidige tekst-naar-audio modellen zijn echter privé en niet toegankelijk voor kunstenaars en onderzoekers om op voort te bouwen. Hier beschrijven we de architectuur en het trainingsproces van een nieuw open-gewichten tekst-naar-audio model, getraind met Creative Commons-data. Onze evaluatie toont aan dat de prestaties van het model concurrerend zijn met de state-of-the-art op verschillende metrieken. Met name de gerapporteerde FDopenl3-resultaten (die de realisme van de gegenereerde audio meten) tonen het potentieel aan voor hoogwaardige stereogeluidssynthese op 44,1kHz.
English
Open generative models are vitally important for the community, allowing for
fine-tunes and serving as baselines when presenting new models. However, most
current text-to-audio models are private and not accessible for artists and
researchers to build upon. Here we describe the architecture and training
process of a new open-weights text-to-audio model trained with Creative Commons
data. Our evaluation shows that the model's performance is competitive with the
state-of-the-art across various metrics. Notably, the reported FDopenl3 results
(measuring the realism of the generations) showcase its potential for
high-quality stereo sound synthesis at 44.1kHz.