ChatPaper.aiChatPaper

Stabile Audio-Öffnung

Stable Audio Open

July 19, 2024
Autoren: Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons
cs.AI

Zusammenfassung

Offene generative Modelle sind für die Gemeinschaft von entscheidender Bedeutung, da sie Feinabstimmungen ermöglichen und als Basislinien dienen, wenn neue Modelle vorgestellt werden. Die meisten aktuellen Text-zu-Audio-Modelle sind jedoch privat und nicht für Künstler und Forscher zugänglich, um darauf aufzubauen. Hier beschreiben wir die Architektur und den Schulungsprozess eines neuen offenen Gewichts-Text-zu-Audio-Modells, das mit Creative Commons-Daten trainiert wurde. Unsere Bewertung zeigt, dass die Leistung des Modells im Vergleich zum Stand der Technik über verschiedene Metriken hinweg wettbewerbsfähig ist. Insbesondere zeigen die berichteten FDopenl3-Ergebnisse (die Realität der Generierungen messen) sein Potenzial für hochwertige Stereoklangsynthese mit 44,1 kHz.
English
Open generative models are vitally important for the community, allowing for fine-tunes and serving as baselines when presenting new models. However, most current text-to-audio models are private and not accessible for artists and researchers to build upon. Here we describe the architecture and training process of a new open-weights text-to-audio model trained with Creative Commons data. Our evaluation shows that the model's performance is competitive with the state-of-the-art across various metrics. Notably, the reported FDopenl3 results (measuring the realism of the generations) showcase its potential for high-quality stereo sound synthesis at 44.1kHz.

Summary

AI-Generated Summary

PDF275November 28, 2024