DITTO: Otimização T no Tempo de Inferência por Difusão para Geração de Música
DITTO: Diffusion Inference-Time T-Optimization for Music Generation
January 22, 2024
Autores: Zachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas J. Bryan
cs.AI
Resumo
Propomos o Diffusion Inference-Time T-Optimization (DITTO), uma estrutura geral para controlar modelos de difusão pré-treinados de texto-para-música durante o tempo de inferência por meio da otimização de latentes de ruído inicial. Nosso método pode ser usado para otimizar qualquer função de perda diferenciável de correspondência de características para alcançar uma saída (estilizada) desejada e aproveita o checkpointing de gradiente para eficiência de memória. Demonstramos uma surpreendente variedade de aplicações para geração de música, incluindo inpainting, outpainting e looping, bem como controle de intensidade, melodia e estrutura musical — tudo sem nunca ajustar o modelo subjacente. Quando comparamos nossa abordagem com métodos relacionados baseados em treinamento, orientação e otimização, descobrimos que o DITTO alcança desempenho de ponta em quase todas as tarefas, superando abordagens comparáveis em termos de controlabilidade, qualidade de áudio e eficiência computacional, abrindo assim as portas para um controle de alta qualidade, flexível e sem treinamento de modelos de difusão. Exemplos de áudio podem ser encontrados em https://DITTO-Music.github.io/web/.
English
We propose Diffusion Inference-Time T-Optimization (DITTO), a general-purpose
frame-work for controlling pre-trained text-to-music diffusion models at
inference-time via optimizing initial noise latents. Our method can be used to
optimize through any differentiable feature matching loss to achieve a target
(stylized) output and leverages gradient checkpointing for memory efficiency.
We demonstrate a surprisingly wide-range of applications for music generation
including inpainting, outpainting, and looping as well as intensity, melody,
and musical structure control - all without ever fine-tuning the underlying
model. When we compare our approach against related training, guidance, and
optimization-based methods, we find DITTO achieves state-of-the-art performance
on nearly all tasks, including outperforming comparable approaches on
controllability, audio quality, and computational efficiency, thus opening the
door for high-quality, flexible, training-free control of diffusion models.
Sound examples can be found at https://DITTO-Music.github.io/web/.