ChatPaper.aiChatPaper

DITTO-2: Otimização de Inferência por Difusão Destilada em Tempo-T para Geração de Música

DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation

May 30, 2024
Autores: Zachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas Bryan
cs.AI

Resumo

Métodos de geração de música controlável são essenciais para a criação de música baseada em IA centrada no ser humano, mas atualmente são limitados por compromissos entre velocidade, qualidade e design de controle. A Otimização de T em Tempo de Inferência por Difusão (DITTO), em particular, oferece resultados de ponta, mas é mais de 10 vezes mais lenta que o tempo real, limitando seu uso prático. Propomos a Otimização de T em Tempo de Inferência por Difusão Destilada (ou DITTO-2), um novo método para acelerar o controle baseado em otimização em tempo de inferência e permitir geração mais rápida que o tempo real para uma ampla variedade de aplicações, como preenchimento de música, extensão, intensidade, melodia e controle de estrutura musical. Nosso método funciona (1) destilando um modelo de difusão pré-treinado para amostragem rápida por meio de um processo eficiente e modificado de destilação de consistência ou trajetória de consistência, (2) realizando otimização em tempo de inferência usando nosso modelo destilado com amostragem em uma etapa como uma tarefa de otimização substituta eficiente e (3) executando uma geração final de amostragem multi-etapa (decodificação) usando nossos latentes de ruído estimados para geração controlável de alta qualidade e rápida. Por meio de uma avaliação detalhada, descobrimos que nosso método não apenas acelera a geração em mais de 10-20 vezes, mas também melhora simultaneamente a aderência ao controle e a qualidade da geração. Além disso, aplicamos nossa abordagem a uma nova aplicação de maximização de aderência a texto (pontuação CLAP) e mostramos que podemos converter um modelo de difusão incondicional sem entradas de texto em um modelo que oferece controle de texto de ponta. Exemplos de áudio podem ser encontrados em https://ditto-music.github.io/ditto2/.
English
Controllable music generation methods are critical for human-centered AI-based music creation, but are currently limited by speed, quality, and control design trade-offs. Diffusion Inference-Time T-optimization (DITTO), in particular, offers state-of-the-art results, but is over 10x slower than real-time, limiting practical use. We propose Distilled Diffusion Inference-Time T -Optimization (or DITTO-2), a new method to speed up inference-time optimization-based control and unlock faster-than-real-time generation for a wide-variety of applications such as music inpainting, outpainting, intensity, melody, and musical structure control. Our method works by (1) distilling a pre-trained diffusion model for fast sampling via an efficient, modified consistency or consistency trajectory distillation process (2) performing inference-time optimization using our distilled model with one-step sampling as an efficient surrogate optimization task and (3) running a final multi-step sampling generation (decoding) using our estimated noise latents for best-quality, fast, controllable generation. Through thorough evaluation, we find our method not only speeds up generation over 10-20x, but simultaneously improves control adherence and generation quality all at once. Furthermore, we apply our approach to a new application of maximizing text adherence (CLAP score) and show we can convert an unconditional diffusion model without text inputs into a model that yields state-of-the-art text control. Sound examples can be found at https://ditto-music.github.io/ditto2/.
PDF110December 12, 2024