ChatPaper.aiChatPaper

Stable Audio Open

Stable Audio Open

July 19, 2024
著者: Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons
cs.AI

要旨

オープンな生成モデルはコミュニティにとって極めて重要であり、ファインチューニングを可能にし、新しいモデルを発表する際のベースラインとして機能します。しかし、現在のテキストからオーディオを生成するモデルのほとんどは非公開であり、アーティストや研究者が基盤として利用することはできません。本稿では、クリエイティブ・コモンズのデータを用いてトレーニングされた新しいオープンウェイトのテキストからオーディオを生成するモデルのアーキテクチャとトレーニングプロセスについて説明します。評価の結果、このモデルは様々な指標において最先端の性能と競合することが示されました。特に、生成物のリアリズムを測定するFDopenl3の結果は、44.1kHzでの高品質なステレオ音声合成の可能性を示しています。
English
Open generative models are vitally important for the community, allowing for fine-tunes and serving as baselines when presenting new models. However, most current text-to-audio models are private and not accessible for artists and researchers to build upon. Here we describe the architecture and training process of a new open-weights text-to-audio model trained with Creative Commons data. Our evaluation shows that the model's performance is competitive with the state-of-the-art across various metrics. Notably, the reported FDopenl3 results (measuring the realism of the generations) showcase its potential for high-quality stereo sound synthesis at 44.1kHz.

Summary

AI-Generated Summary

PDF275November 28, 2024