Áudio Estável Aberto
Stable Audio Open
July 19, 2024
Autores: Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons
cs.AI
Resumo
Os modelos generativos abertos são de vital importância para a comunidade, permitindo ajustes finos e servindo como referências ao apresentar novos modelos. No entanto, a maioria dos modelos atuais de texto para áudio são privados e não acessíveis para artistas e pesquisadores construírem sobre eles. Aqui descrevemos a arquitetura e o processo de treinamento de um novo modelo de texto para áudio de pesos abertos treinado com dados da Creative Commons. Nossa avaliação mostra que o desempenho do modelo é competitivo com o estado-da-arte em várias métricas. Notavelmente, os resultados FDopenl3 relatados (medindo o realismo das gerações) destacam seu potencial para síntese de som estéreo de alta qualidade a 44,1kHz.
English
Open generative models are vitally important for the community, allowing for
fine-tunes and serving as baselines when presenting new models. However, most
current text-to-audio models are private and not accessible for artists and
researchers to build upon. Here we describe the architecture and training
process of a new open-weights text-to-audio model trained with Creative Commons
data. Our evaluation shows that the model's performance is competitive with the
state-of-the-art across various metrics. Notably, the reported FDopenl3 results
(measuring the realism of the generations) showcase its potential for
high-quality stereo sound synthesis at 44.1kHz.