Stable Audio 3

Samenvatting

Stable Audio 3 is een familie van snelle latente diffusiemodellen (klein, middelgroot, groot) voor het genereren en bewerken van audio met variabele lengte. Aangezien onze modellen meerdere minuten audio kunnen genereren, is generatie met variabele lengte essentieel om de kosten van het produceren van volledige generaties voor korte geluiden te vermijden. We ondersteunen ook inpainting, wat gerichte audiobewerking en het voortzetten van korte opnames mogelijk maakt. Onze latente diffusiemodellen werken bovenop een nieuwe semantisch-akoestische autoencoder die audio projecteert naar een compacte latente ruimte, wat efficiënte diffusiegebaseerde generatie mogelijk maakt terwijl de audiogetrouwheid behouden blijft en semantische structuur in de latente ruimte wordt gestimuleerd. Tot slot passen we adversariële nabewerking toe om zowel de inferentie te versnellen als de generatiekwaliteit te verbeteren, waarbij het aantal inferentiestappen wordt verminderd terwijl de getrouwheid en prompt-naleving worden verbeterd. Stable Audio 3-modellen zijn getraind op gelicentieerde en Creative Commons-data om muziek en geluiden te genereren in minder dan 2 seconden op een H200 GPU en in minder dan enkele seconden op een MacBook Pro M4. We geven de gewichten vrij van de kleine en middelgrote modellen, die op consumentenhardware kunnen draaien, samen met hun trainings- en inferentiepijplijn.

English

Stable Audio 3 is a family of fast latent diffusion models (small, medium, large) for variable-length audio generation and editing. Since our models can generate several minutes of audio, variable-length generations are key to avoid the cost of producing full-length generations for short sounds. We also support inpainting, enabling targeted audio editing and the continuation of short recordings. Our latent diffusion models operate on top of a novel semantic-acoustic autoencoder that projects audio into a compact latent space, enabling efficient diffusion-based generation while preserving audio fidelity and encouraging semantic structure in the latent. Finally, we run adversarial post-training to both accelerate inference and improve generation quality, reducing the number of inference steps while improving fidelity and prompt adherence. Stable Audio 3 models are trained on licensed and Creative Commons data to generate music and sounds in less than a 2s on an H200 GPU and less than a few seconds on a MacBook Pro M4. We release the weights of small and medium, that can run on consumer-grade hardware, together with their training and inference pipeline.