Schnelle zeitlich konditionierte latente Audio-Diffusion
Fast Timing-Conditioned Latent Audio Diffusion
February 7, 2024
Autoren: Zach Evans, CJ Carr, Josiah Taylor, Scott H. Hawley, Jordi Pons
cs.AI
Zusammenfassung
Die Erzeugung von langen 44,1-kHz-Stereo-Audiodateien aus Textanweisungen kann rechenintensiv sein. Darüber hinaus berücksichtigen die meisten bisherigen Arbeiten nicht, dass Musik und Soundeffekte natürlicherweise in ihrer Dauer variieren. Unsere Forschung konzentriert sich auf die effiziente Generierung von langen, variablen Stereo-Musik- und Sounddateien bei 44,1 kHz mithilfe von Textanweisungen und einem generativen Modell. Stable Audio basiert auf latenter Diffusion, wobei das Latent durch einen vollständig faltenden Variations-Autoencoder definiert wird. Es wird durch Textanweisungen sowie Zeit-Einbettungen konditioniert, was eine präzise Kontrolle über den Inhalt und die Länge der generierten Musik und Sounds ermöglicht. Stable Audio kann Stereo-Signale von bis zu 95 Sekunden bei 44,1 kHz in 8 Sekunden auf einer A100-GPU rendern. Trotz seiner Recheneffizienz und schnellen Inferenz gehört es zu den besten in zwei öffentlichen Text-zu-Musik- und -Audio-Benchmarks und kann, im Gegensatz zu state-of-the-art-Modellen, Musik mit Struktur und Stereo-Sounds erzeugen.
English
Generating long-form 44.1kHz stereo audio from text prompts can be
computationally demanding. Further, most previous works do not tackle that
music and sound effects naturally vary in their duration. Our research focuses
on the efficient generation of long-form, variable-length stereo music and
sounds at 44.1kHz using text prompts with a generative model. Stable Audio is
based on latent diffusion, with its latent defined by a fully-convolutional
variational autoencoder. It is conditioned on text prompts as well as timing
embeddings, allowing for fine control over both the content and length of the
generated music and sounds. Stable Audio is capable of rendering stereo signals
of up to 95 sec at 44.1kHz in 8 sec on an A100 GPU. Despite its compute
efficiency and fast inference, it is one of the best in two public
text-to-music and -audio benchmarks and, differently from state-of-the-art
models, can generate music with structure and stereo sounds.