Stable Audio 3

Resumen

Stable Audio 3 es una familia de modelos rápidos de difusión latente (pequeño, mediano, grande) para la generación y edición de audio de duración variable. Dado que nuestros modelos pueden generar varios minutos de audio, las generaciones de longitud variable son clave para evitar el costo de producir generaciones completas para sonidos cortos. También admitimos el relleno (inpainting), lo que permite la edición dirigida de audio y la continuación de grabaciones breves. Nuestros modelos de difusión latente operan sobre un novedoso autoencoder semántico-acústico que proyecta el audio en un espacio latente compacto, lo que posibilita una generación eficiente basada en difusión, preservando al mismo tiempo la fidelidad del audio y fomentando la estructura semántica en el latente. Finalmente, aplicamos un post-entrenamiento adversarial para acelerar la inferencia y mejorar la calidad de generación, reduciendo el número de pasos de inferencia y mejorando la fidelidad y la adherencia a las indicaciones. Los modelos Stable Audio 3 se entrenan con datos bajo licencia y Creative Commons para generar música y sonidos en menos de 2 segundos en una GPU H200 y en menos de unos segundos en un MacBook Pro M4. Publicamos los pesos de los modelos pequeño y mediano, que pueden ejecutarse en hardware de consumo, junto con sus pipelines de entrenamiento e inferencia.

English

Stable Audio 3 is a family of fast latent diffusion models (small, medium, large) for variable-length audio generation and editing. Since our models can generate several minutes of audio, variable-length generations are key to avoid the cost of producing full-length generations for short sounds. We also support inpainting, enabling targeted audio editing and the continuation of short recordings. Our latent diffusion models operate on top of a novel semantic-acoustic autoencoder that projects audio into a compact latent space, enabling efficient diffusion-based generation while preserving audio fidelity and encouraging semantic structure in the latent. Finally, we run adversarial post-training to both accelerate inference and improve generation quality, reducing the number of inference steps while improving fidelity and prompt adherence. Stable Audio 3 models are trained on licensed and Creative Commons data to generate music and sounds in less than a 2s on an H200 GPU and less than a few seconds on a MacBook Pro M4. We release the weights of small and medium, that can run on consumer-grade hardware, together with their training and inference pipeline.