Stabile Audio-Öffnung

Zusammenfassung

Offene generative Modelle sind für die Gemeinschaft von entscheidender Bedeutung, da sie Feinabstimmungen ermöglichen und als Basislinien dienen, wenn neue Modelle vorgestellt werden. Die meisten aktuellen Text-zu-Audio-Modelle sind jedoch privat und nicht für Künstler und Forscher zugänglich, um darauf aufzubauen. Hier beschreiben wir die Architektur und den Schulungsprozess eines neuen offenen Gewichts-Text-zu-Audio-Modells, das mit Creative Commons-Daten trainiert wurde. Unsere Bewertung zeigt, dass die Leistung des Modells im Vergleich zum Stand der Technik über verschiedene Metriken hinweg wettbewerbsfähig ist. Insbesondere zeigen die berichteten FDopenl3-Ergebnisse (die Realität der Generierungen messen) sein Potenzial für hochwertige Stereoklangsynthese mit 44,1 kHz.

English

Open generative models are vitally important for the community, allowing for fine-tunes and serving as baselines when presenting new models. However, most current text-to-audio models are private and not accessible for artists and researchers to build upon. Here we describe the architecture and training process of a new open-weights text-to-audio model trained with Creative Commons data. Our evaluation shows that the model's performance is competitive with the state-of-the-art across various metrics. Notably, the reported FDopenl3 results (measuring the realism of the generations) showcase its potential for high-quality stereo sound synthesis at 44.1kHz.