Stable Audio 3

Résumé

Stable Audio 3 est une famille de modèles de diffusion latents rapides (petit, moyen, grand) destinés à la génération et à l'édition de contenus audio de durée variable. Étant donné que nos modèles peuvent générer plusieurs minutes d’audio, les générations de longueur variable sont essentielles pour éviter le coût d’une production de segments complets pour des sons courts. Nous prenons également en charge l’inpainting, ce qui permet une édition audio ciblée et la prolongation de courts enregistrements. Nos modèles de diffusion latents fonctionnent au-dessus d’un nouvel autoencodeur sémantique-acoustique qui projette l’audio dans un espace latent compact, permettant une génération efficace par diffusion tout en préservant la fidélité audio et en favorisant une structure sémantique dans l’espace latent. Enfin, nous effectuons un post-entraînement adversarial pour accélérer l’inférence et améliorer la qualité de la génération, réduisant le nombre d’étapes d’inférence tout en améliorant la fidélité et le respect des consignes. Les modèles Stable Audio 3 sont entraînés sur des données sous licence et Creative Commons pour générer de la musique et des sons en moins de 2 secondes sur un GPU H200 et en moins de quelques secondes sur un MacBook Pro M4. Nous publions les poids des modèles petit et moyen, qui peuvent fonctionner sur du matériel grand public, ainsi que leur pipeline d’entraînement et d’inférence.

English

Stable Audio 3 is a family of fast latent diffusion models (small, medium, large) for variable-length audio generation and editing. Since our models can generate several minutes of audio, variable-length generations are key to avoid the cost of producing full-length generations for short sounds. We also support inpainting, enabling targeted audio editing and the continuation of short recordings. Our latent diffusion models operate on top of a novel semantic-acoustic autoencoder that projects audio into a compact latent space, enabling efficient diffusion-based generation while preserving audio fidelity and encouraging semantic structure in the latent. Finally, we run adversarial post-training to both accelerate inference and improve generation quality, reducing the number of inference steps while improving fidelity and prompt adherence. Stable Audio 3 models are trained on licensed and Creative Commons data to generate music and sounds in less than a 2s on an H200 GPU and less than a few seconds on a MacBook Pro M4. We release the weights of small and medium, that can run on consumer-grade hardware, together with their training and inference pipeline.