Stable Audio 3

Аннотация

Stable Audio 3 представляет собой семейство быстрых латентных диффузионных моделей (small, medium, large) для генерации и редактирования аудио переменной длины. Поскольку наши модели способны генерировать несколько минут аудио, генерация переменной длины является ключевым фактором для предотвращения издержек, связанных с созданием полноразмерных аудиофрагментов для коротких звуков. Мы также поддерживаем инпейнтинг, обеспечивающий целевую редакцию аудио и продолжение коротких записей. Наши латентные диффузионные модели работают поверх нового семантико-акустического автоэнкодера, который проецирует аудио в компактное латентное пространство, обеспечивая эффективную диффузионную генерацию при сохранении верности аудио и стимулировании семантической структуры в латентном представлении. Наконец, мы применяем состязательный посттренинг для ускорения инференса и повышения качества генерации, сокращая количество шагов инференса при улучшении верности и соответствия запросу. Модели Stable Audio 3 обучаются на лицензированных данных и данных по лицензии Creative Commons, чтобы генерировать музыку и звуки менее чем за 2 секунды на GPU H200 и менее чем за несколько секунд на MacBook Pro M4. Мы публикуем веса моделей small и medium, которые могут работать на потребительском оборудовании, вместе с их пайплайном обучения и инференса.

English

Stable Audio 3 is a family of fast latent diffusion models (small, medium, large) for variable-length audio generation and editing. Since our models can generate several minutes of audio, variable-length generations are key to avoid the cost of producing full-length generations for short sounds. We also support inpainting, enabling targeted audio editing and the continuation of short recordings. Our latent diffusion models operate on top of a novel semantic-acoustic autoencoder that projects audio into a compact latent space, enabling efficient diffusion-based generation while preserving audio fidelity and encouraging semantic structure in the latent. Finally, we run adversarial post-training to both accelerate inference and improve generation quality, reducing the number of inference steps while improving fidelity and prompt adherence. Stable Audio 3 models are trained on licensed and Creative Commons data to generate music and sounds in less than a 2s on an H200 GPU and less than a few seconds on a MacBook Pro M4. We release the weights of small and medium, that can run on consumer-grade hardware, together with their training and inference pipeline.