ChatPaper.aiChatPaper

Стабильное аудио открыто

Stable Audio Open

July 19, 2024
Авторы: Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons
cs.AI

Аннотация

Открытые генеративные модели имеют важное значение для сообщества, позволяя проводить тонкую настройку и служа как базовые при представлении новых моделей. Однако большинство текущих моделей текст в аудио являются закрытыми и недоступными для художников и исследователей для дальнейшего развития. Здесь мы описываем архитектуру и процесс обучения новой открытой модели текст в аудио с открытыми весами, обученной на данных Creative Commons. Наша оценка показывает, что производительность модели конкурентоспособна с лучшими показателями по различным метрикам. Особенно отмечены результаты FDopenl3 (измерение реализма генерации), демонстрирующие ее потенциал для синтеза стереозвука высокого качества на частоте 44,1 кГц.
English
Open generative models are vitally important for the community, allowing for fine-tunes and serving as baselines when presenting new models. However, most current text-to-audio models are private and not accessible for artists and researchers to build upon. Here we describe the architecture and training process of a new open-weights text-to-audio model trained with Creative Commons data. Our evaluation shows that the model's performance is competitive with the state-of-the-art across various metrics. Notably, the reported FDopenl3 results (measuring the realism of the generations) showcase its potential for high-quality stereo sound synthesis at 44.1kHz.

Summary

AI-Generated Summary

PDF275November 28, 2024