Difusión Latente de Audio Condicionada por Tiempo Rápido
Fast Timing-Conditioned Latent Audio Diffusion
February 7, 2024
Autores: Zach Evans, CJ Carr, Josiah Taylor, Scott H. Hawley, Jordi Pons
cs.AI
Resumen
Generar audio estéreo de larga duración a 44.1 kHz a partir de indicaciones de texto puede ser computacionalmente exigente. Además, la mayoría de los trabajos anteriores no abordan que la música y los efectos de sonido varían naturalmente en su duración. Nuestra investigación se centra en la generación eficiente de música y sonidos estéreo de larga duración y longitud variable a 44.1 kHz utilizando indicaciones de texto con un modelo generativo. Stable Audio se basa en difusión latente, con su espacio latente definido por un autoencoder variacional completamente convolucional. Está condicionado por indicaciones de texto, así como por incrustaciones de tiempo, lo que permite un control preciso tanto del contenido como de la duración de la música y los sonidos generados. Stable Audio es capaz de renderizar señales estéreo de hasta 95 segundos a 44.1 kHz en 8 segundos en una GPU A100. A pesar de su eficiencia computacional y su inferencia rápida, es uno de los mejores en dos benchmarks públicos de texto a música y audio y, a diferencia de los modelos más avanzados, puede generar música con estructura y sonidos estéreo.
English
Generating long-form 44.1kHz stereo audio from text prompts can be
computationally demanding. Further, most previous works do not tackle that
music and sound effects naturally vary in their duration. Our research focuses
on the efficient generation of long-form, variable-length stereo music and
sounds at 44.1kHz using text prompts with a generative model. Stable Audio is
based on latent diffusion, with its latent defined by a fully-convolutional
variational autoencoder. It is conditioned on text prompts as well as timing
embeddings, allowing for fine control over both the content and length of the
generated music and sounds. Stable Audio is capable of rendering stereo signals
of up to 95 sec at 44.1kHz in 8 sec on an A100 GPU. Despite its compute
efficiency and fast inference, it is one of the best in two public
text-to-music and -audio benchmarks and, differently from state-of-the-art
models, can generate music with structure and stereo sounds.