ChatPaper.aiChatPaper

Diffusion Latente Audio Conditionnée par un Timing Rapide

Fast Timing-Conditioned Latent Audio Diffusion

February 7, 2024
Auteurs: Zach Evans, CJ Carr, Josiah Taylor, Scott H. Hawley, Jordi Pons
cs.AI

Résumé

La génération d'audio stéréo long format à 44,1 kHz à partir de prompts textuels peut être exigeante en termes de calcul. De plus, la plupart des travaux précédents ne traitent pas du fait que la musique et les effets sonores varient naturellement en durée. Notre recherche se concentre sur la génération efficace de musique et de sons stéréo long format de durée variable à 44,1 kHz en utilisant des prompts textuels avec un modèle génératif. Stable Audio est basé sur la diffusion latente, avec son latent défini par un autoencodeur variationnel entièrement convolutionnel. Il est conditionné par des prompts textuels ainsi que des embeddings temporels, permettant un contrôle précis à la fois du contenu et de la durée de la musique et des sons générés. Stable Audio est capable de produire des signaux stéréo allant jusqu'à 95 secondes à 44,1 kHz en 8 secondes sur une GPU A100. Malgré son efficacité en termes de calcul et son inférence rapide, il figure parmi les meilleurs sur deux benchmarks publics de conversion texte-musique et texte-audio et, contrairement aux modèles de pointe, il peut générer de la musique avec une structure et des sons stéréo.
English
Generating long-form 44.1kHz stereo audio from text prompts can be computationally demanding. Further, most previous works do not tackle that music and sound effects naturally vary in their duration. Our research focuses on the efficient generation of long-form, variable-length stereo music and sounds at 44.1kHz using text prompts with a generative model. Stable Audio is based on latent diffusion, with its latent defined by a fully-convolutional variational autoencoder. It is conditioned on text prompts as well as timing embeddings, allowing for fine control over both the content and length of the generated music and sounds. Stable Audio is capable of rendering stereo signals of up to 95 sec at 44.1kHz in 8 sec on an A100 GPU. Despite its compute efficiency and fast inference, it is one of the best in two public text-to-music and -audio benchmarks and, differently from state-of-the-art models, can generate music with structure and stereo sounds.
PDF81December 15, 2024