ChatPaper.aiChatPaper

Audio Estable Abierto

Stable Audio Open

July 19, 2024
Autores: Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons
cs.AI

Resumen

Los modelos generativos abiertos son de vital importancia para la comunidad, ya que permiten ajustes finos y sirven como referencia al presentar nuevos modelos. Sin embargo, la mayoría de los modelos actuales de texto a audio son privados y no están accesibles para artistas e investigadores para construir sobre ellos. Aquí describimos la arquitectura y el proceso de entrenamiento de un nuevo modelo de texto a audio con pesos abiertos, entrenado con datos de Creative Commons. Nuestra evaluación muestra que el rendimiento del modelo es competitivo con el estado del arte en diversas métricas. Especialmente, los resultados reportados de FDopenl3 (que miden el realismo de las generaciones) muestran su potencial para la síntesis de sonido estéreo de alta calidad a 44.1kHz.
English
Open generative models are vitally important for the community, allowing for fine-tunes and serving as baselines when presenting new models. However, most current text-to-audio models are private and not accessible for artists and researchers to build upon. Here we describe the architecture and training process of a new open-weights text-to-audio model trained with Creative Commons data. Our evaluation shows that the model's performance is competitive with the state-of-the-art across various metrics. Notably, the reported FDopenl3 results (measuring the realism of the generations) showcase its potential for high-quality stereo sound synthesis at 44.1kHz.

Summary

AI-Generated Summary

PDF275November 28, 2024