Stable Audio 3

Resumo

O Stable Audio 3 é uma família de modelos rápidos de difusão latente (pequeno, médio, grande) para geração e edição de áudio de duração variável. Como nossos modelos podem gerar vários minutos de áudio, gerações de comprimento variável são essenciais para evitar o custo de produzir gerações completas para sons curtos. Também oferecemos suporte a inpainting, possibilitando a edição direcionada de áudio e a continuação de gravações curtas. Nossos modelos de difusão latente operam sobre um novo autoencoder semântico-acústico que projeta o áudio em um espaço latente compacto, permitindo geração eficiente baseada em difusão, preservando a fidelidade do áudio e estimulando uma estrutura semântica no espaço latente. Por fim, realizamos pós-treinamento adversarial para acelerar a inferência e melhorar a qualidade da geração, reduzindo o número de etapas de inferência ao mesmo tempo que melhora a fidelidade e a aderência ao prompt. Os modelos Stable Audio 3 são treinados com dados licenciados e Creative Commons para gerar música e sons em menos de 2 segundos em uma GPU H200 e em menos de alguns segundos em um MacBook Pro M4. Disponibilizamos os pesos dos modelos pequeno e médio, que podem ser executados em hardware de consumo, juntamente com seus pipelines de treinamento e inferência.

English

Stable Audio 3 is a family of fast latent diffusion models (small, medium, large) for variable-length audio generation and editing. Since our models can generate several minutes of audio, variable-length generations are key to avoid the cost of producing full-length generations for short sounds. We also support inpainting, enabling targeted audio editing and the continuation of short recordings. Our latent diffusion models operate on top of a novel semantic-acoustic autoencoder that projects audio into a compact latent space, enabling efficient diffusion-based generation while preserving audio fidelity and encouraging semantic structure in the latent. Finally, we run adversarial post-training to both accelerate inference and improve generation quality, reducing the number of inference steps while improving fidelity and prompt adherence. Stable Audio 3 models are trained on licensed and Creative Commons data to generate music and sounds in less than a 2s on an H200 GPU and less than a few seconds on a MacBook Pro M4. We release the weights of small and medium, that can run on consumer-grade hardware, together with their training and inference pipeline.