ChatPaper.aiChatPaper

Difusión Latente de Audio Condicionada por Tiempo Rápido

Fast Timing-Conditioned Latent Audio Diffusion

February 7, 2024
Autores: Zach Evans, CJ Carr, Josiah Taylor, Scott H. Hawley, Jordi Pons
cs.AI

Resumen

Generar audio estéreo de larga duración a 44.1 kHz a partir de indicaciones de texto puede ser computacionalmente exigente. Además, la mayoría de los trabajos anteriores no abordan que la música y los efectos de sonido varían naturalmente en su duración. Nuestra investigación se centra en la generación eficiente de música y sonidos estéreo de larga duración y longitud variable a 44.1 kHz utilizando indicaciones de texto con un modelo generativo. Stable Audio se basa en difusión latente, con su espacio latente definido por un autoencoder variacional completamente convolucional. Está condicionado por indicaciones de texto, así como por incrustaciones de tiempo, lo que permite un control preciso tanto del contenido como de la duración de la música y los sonidos generados. Stable Audio es capaz de renderizar señales estéreo de hasta 95 segundos a 44.1 kHz en 8 segundos en una GPU A100. A pesar de su eficiencia computacional y su inferencia rápida, es uno de los mejores en dos benchmarks públicos de texto a música y audio y, a diferencia de los modelos más avanzados, puede generar música con estructura y sonidos estéreo.
English
Generating long-form 44.1kHz stereo audio from text prompts can be computationally demanding. Further, most previous works do not tackle that music and sound effects naturally vary in their duration. Our research focuses on the efficient generation of long-form, variable-length stereo music and sounds at 44.1kHz using text prompts with a generative model. Stable Audio is based on latent diffusion, with its latent defined by a fully-convolutional variational autoencoder. It is conditioned on text prompts as well as timing embeddings, allowing for fine control over both the content and length of the generated music and sounds. Stable Audio is capable of rendering stereo signals of up to 95 sec at 44.1kHz in 8 sec on an A100 GPU. Despite its compute efficiency and fast inference, it is one of the best in two public text-to-music and -audio benchmarks and, differently from state-of-the-art models, can generate music with structure and stereo sounds.
PDF81December 15, 2024