Snelle Timing-Gestuurde Latente Audio Diffusie
Fast Timing-Conditioned Latent Audio Diffusion
February 7, 2024
Auteurs: Zach Evans, CJ Carr, Josiah Taylor, Scott H. Hawley, Jordi Pons
cs.AI
Samenvatting
Het genereren van langdurige 44,1 kHz stereo-audio vanuit tekstprompts kan rekenintensief zijn. Bovendien pakken de meeste eerdere werken niet aan dat muziek en geluidseffecten van nature variëren in duur. Ons onderzoek richt zich op de efficiënte generatie van langdurige, variabele-lengte stereo-muziek en geluiden op 44,1 kHz met behulp van tekstprompts en een generatief model. Stable Audio is gebaseerd op latente diffusie, met zijn latent gedefinieerd door een volledig convolutionele variational autoencoder. Het wordt geconditioneerd op tekstprompts en timing-embeddings, wat een fijne controle mogelijk maakt over zowel de inhoud als de lengte van de gegenereerde muziek en geluiden. Stable Audio is in staat om stereosignalen van maximaal 95 seconden op 44,1 kHz te renderen in 8 seconden op een A100 GPU. Ondanks zijn reken-efficiëntie en snelle inferentie, behoort het tot de beste in twee publieke tekst-naar-muziek en -audio benchmarks en kan het, in tegenstelling tot state-of-the-art modellen, muziek met structuur en stereogeluiden genereren.
English
Generating long-form 44.1kHz stereo audio from text prompts can be
computationally demanding. Further, most previous works do not tackle that
music and sound effects naturally vary in their duration. Our research focuses
on the efficient generation of long-form, variable-length stereo music and
sounds at 44.1kHz using text prompts with a generative model. Stable Audio is
based on latent diffusion, with its latent defined by a fully-convolutional
variational autoencoder. It is conditioned on text prompts as well as timing
embeddings, allowing for fine control over both the content and length of the
generated music and sounds. Stable Audio is capable of rendering stereo signals
of up to 95 sec at 44.1kHz in 8 sec on an A100 GPU. Despite its compute
efficiency and fast inference, it is one of the best in two public
text-to-music and -audio benchmarks and, differently from state-of-the-art
models, can generate music with structure and stereo sounds.