ChatPaper.aiChatPaper

Difusão Latente de Áudio Condicionada por Tempo Rápido

Fast Timing-Conditioned Latent Audio Diffusion

February 7, 2024
Autores: Zach Evans, CJ Carr, Josiah Taylor, Scott H. Hawley, Jordi Pons
cs.AI

Resumo

Gerar áudio estéreo de longa duração a 44,1 kHz a partir de prompts de texto pode ser computacionalmente exigente. Além disso, a maioria dos trabalhos anteriores não aborda o fato de que música e efeitos sonoros variam naturalmente em sua duração. Nossa pesquisa se concentra na geração eficiente de música e sons estéreo de longa duração e comprimento variável a 44,1 kHz usando prompts de texto com um modelo generativo. O Stable Audio é baseado em difusão latente, com seu latente definido por um autoencoder variacional totalmente convolucional. Ele é condicionado por prompts de texto, bem como por embeddings de tempo, permitindo um controle refinado tanto sobre o conteúdo quanto sobre a duração da música e sons gerados. O Stable Audio é capaz de renderizar sinais estéreo de até 95 segundos a 44,1 kHz em 8 segundos em uma GPU A100. Apesar de sua eficiência computacional e inferência rápida, ele é um dos melhores em dois benchmarks públicos de texto-para-música e -áudio e, diferentemente dos modelos state-of-the-art, pode gerar música com estrutura e sons estéreo.
English
Generating long-form 44.1kHz stereo audio from text prompts can be computationally demanding. Further, most previous works do not tackle that music and sound effects naturally vary in their duration. Our research focuses on the efficient generation of long-form, variable-length stereo music and sounds at 44.1kHz using text prompts with a generative model. Stable Audio is based on latent diffusion, with its latent defined by a fully-convolutional variational autoencoder. It is conditioned on text prompts as well as timing embeddings, allowing for fine control over both the content and length of the generated music and sounds. Stable Audio is capable of rendering stereo signals of up to 95 sec at 44.1kHz in 8 sec on an A100 GPU. Despite its compute efficiency and fast inference, it is one of the best in two public text-to-music and -audio benchmarks and, differently from state-of-the-art models, can generate music with structure and stereo sounds.
PDF81February 8, 2026