Stable Audio 3

Zusammenfassung

Stable Audio 3 ist eine Familie schneller latenter Diffusionsmodelle (klein, mittel, groß) zur Erzeugung und Bearbeitung von Audioinhalten variabler Länge. Da unsere Modelle mehrere Minuten Audio generieren können, sind Generierungen variabler Länge entscheidend, um die Kosten für die Erstellung von Vollversionen für kurze Töne zu vermeiden. Wir unterstützen zudem Inpainting, das gezielte Audiobearbeitung und die Fortsetzung kurzer Aufnahmen ermöglicht. Unsere latenten Diffusionsmodelle arbeiten auf Basis eines neuartigen semantisch-akustischen Autoencoders, der Audio in einen kompakten latenten Raum projiziert. Dies ermöglicht eine effiziente diffusionsbasierte Erzeugung bei gleichzeitiger Wahrung der Audioqualität und Förderung semantischer Strukturen im latenten Raum. Schließlich führen wir ein adversarielles Nachtraining durch, um sowohl die Inferenz zu beschleunigen als auch die Erzeugungsqualität zu verbessern, wodurch die Anzahl der Inferenzschritte reduziert wird, während Wiedergabetreue und Prompt-Treue gesteigert werden. Die Modelle von Stable Audio 3 werden auf lizenzierten und Creative-Commons-Daten trainiert, um Musik und Klänge in weniger als 2 Sekunden auf einer H200 GPU und in wenigen Sekunden auf einem MacBook Pro M4 zu erzeugen. Wir veröffentlichen die Gewichte der kleinen und mittleren Modelle, die auf handelsüblicher Hardware laufen, zusammen mit ihrer Trainings- und Inferenz-Pipeline.

English

Stable Audio 3 is a family of fast latent diffusion models (small, medium, large) for variable-length audio generation and editing. Since our models can generate several minutes of audio, variable-length generations are key to avoid the cost of producing full-length generations for short sounds. We also support inpainting, enabling targeted audio editing and the continuation of short recordings. Our latent diffusion models operate on top of a novel semantic-acoustic autoencoder that projects audio into a compact latent space, enabling efficient diffusion-based generation while preserving audio fidelity and encouraging semantic structure in the latent. Finally, we run adversarial post-training to both accelerate inference and improve generation quality, reducing the number of inference steps while improving fidelity and prompt adherence. Stable Audio 3 models are trained on licensed and Creative Commons data to generate music and sounds in less than a 2s on an H200 GPU and less than a few seconds on a MacBook Pro M4. We release the weights of small and medium, that can run on consumer-grade hardware, together with their training and inference pipeline.