ChatPaper.aiChatPaper

Schnelle zeitlich konditionierte latente Audio-Diffusion

Fast Timing-Conditioned Latent Audio Diffusion

February 7, 2024
Autoren: Zach Evans, CJ Carr, Josiah Taylor, Scott H. Hawley, Jordi Pons
cs.AI

Zusammenfassung

Die Erzeugung von langen 44,1-kHz-Stereo-Audiodateien aus Textanweisungen kann rechenintensiv sein. Darüber hinaus berücksichtigen die meisten bisherigen Arbeiten nicht, dass Musik und Soundeffekte natürlicherweise in ihrer Dauer variieren. Unsere Forschung konzentriert sich auf die effiziente Generierung von langen, variablen Stereo-Musik- und Sounddateien bei 44,1 kHz mithilfe von Textanweisungen und einem generativen Modell. Stable Audio basiert auf latenter Diffusion, wobei das Latent durch einen vollständig faltenden Variations-Autoencoder definiert wird. Es wird durch Textanweisungen sowie Zeit-Einbettungen konditioniert, was eine präzise Kontrolle über den Inhalt und die Länge der generierten Musik und Sounds ermöglicht. Stable Audio kann Stereo-Signale von bis zu 95 Sekunden bei 44,1 kHz in 8 Sekunden auf einer A100-GPU rendern. Trotz seiner Recheneffizienz und schnellen Inferenz gehört es zu den besten in zwei öffentlichen Text-zu-Musik- und -Audio-Benchmarks und kann, im Gegensatz zu state-of-the-art-Modellen, Musik mit Struktur und Stereo-Sounds erzeugen.
English
Generating long-form 44.1kHz stereo audio from text prompts can be computationally demanding. Further, most previous works do not tackle that music and sound effects naturally vary in their duration. Our research focuses on the efficient generation of long-form, variable-length stereo music and sounds at 44.1kHz using text prompts with a generative model. Stable Audio is based on latent diffusion, with its latent defined by a fully-convolutional variational autoencoder. It is conditioned on text prompts as well as timing embeddings, allowing for fine control over both the content and length of the generated music and sounds. Stable Audio is capable of rendering stereo signals of up to 95 sec at 44.1kHz in 8 sec on an A100 GPU. Despite its compute efficiency and fast inference, it is one of the best in two public text-to-music and -audio benchmarks and, differently from state-of-the-art models, can generate music with structure and stereo sounds.
PDF81December 15, 2024