Diffusion Latente Audio Conditionnée par un Timing Rapide
Fast Timing-Conditioned Latent Audio Diffusion
February 7, 2024
Auteurs: Zach Evans, CJ Carr, Josiah Taylor, Scott H. Hawley, Jordi Pons
cs.AI
Résumé
La génération d'audio stéréo long format à 44,1 kHz à partir de prompts textuels peut être exigeante en termes de calcul. De plus, la plupart des travaux précédents ne traitent pas du fait que la musique et les effets sonores varient naturellement en durée. Notre recherche se concentre sur la génération efficace de musique et de sons stéréo long format de durée variable à 44,1 kHz en utilisant des prompts textuels avec un modèle génératif. Stable Audio est basé sur la diffusion latente, avec son latent défini par un autoencodeur variationnel entièrement convolutionnel. Il est conditionné par des prompts textuels ainsi que des embeddings temporels, permettant un contrôle précis à la fois du contenu et de la durée de la musique et des sons générés. Stable Audio est capable de produire des signaux stéréo allant jusqu'à 95 secondes à 44,1 kHz en 8 secondes sur une GPU A100. Malgré son efficacité en termes de calcul et son inférence rapide, il figure parmi les meilleurs sur deux benchmarks publics de conversion texte-musique et texte-audio et, contrairement aux modèles de pointe, il peut générer de la musique avec une structure et des sons stéréo.
English
Generating long-form 44.1kHz stereo audio from text prompts can be
computationally demanding. Further, most previous works do not tackle that
music and sound effects naturally vary in their duration. Our research focuses
on the efficient generation of long-form, variable-length stereo music and
sounds at 44.1kHz using text prompts with a generative model. Stable Audio is
based on latent diffusion, with its latent defined by a fully-convolutional
variational autoencoder. It is conditioned on text prompts as well as timing
embeddings, allowing for fine control over both the content and length of the
generated music and sounds. Stable Audio is capable of rendering stereo signals
of up to 95 sec at 44.1kHz in 8 sec on an A100 GPU. Despite its compute
efficiency and fast inference, it is one of the best in two public
text-to-music and -audio benchmarks and, differently from state-of-the-art
models, can generate music with structure and stereo sounds.