DITTO: Otimização T no Tempo de Inferência por Difusão para Geração de Música

Resumo

Propomos o Diffusion Inference-Time T-Optimization (DITTO), uma estrutura geral para controlar modelos de difusão pré-treinados de texto-para-música durante o tempo de inferência por meio da otimização de latentes de ruído inicial. Nosso método pode ser usado para otimizar qualquer função de perda diferenciável de correspondência de características para alcançar uma saída (estilizada) desejada e aproveita o checkpointing de gradiente para eficiência de memória. Demonstramos uma surpreendente variedade de aplicações para geração de música, incluindo inpainting, outpainting e looping, bem como controle de intensidade, melodia e estrutura musical — tudo sem nunca ajustar o modelo subjacente. Quando comparamos nossa abordagem com métodos relacionados baseados em treinamento, orientação e otimização, descobrimos que o DITTO alcança desempenho de ponta em quase todas as tarefas, superando abordagens comparáveis em termos de controlabilidade, qualidade de áudio e eficiência computacional, abrindo assim as portas para um controle de alta qualidade, flexível e sem treinamento de modelos de difusão. Exemplos de áudio podem ser encontrados em https://DITTO-Music.github.io/web/.

English

We propose Diffusion Inference-Time T-Optimization (DITTO), a general-purpose frame-work for controlling pre-trained text-to-music diffusion models at inference-time via optimizing initial noise latents. Our method can be used to optimize through any differentiable feature matching loss to achieve a target (stylized) output and leverages gradient checkpointing for memory efficiency. We demonstrate a surprisingly wide-range of applications for music generation including inpainting, outpainting, and looping as well as intensity, melody, and musical structure control - all without ever fine-tuning the underlying model. When we compare our approach against related training, guidance, and optimization-based methods, we find DITTO achieves state-of-the-art performance on nearly all tasks, including outperforming comparable approaches on controllability, audio quality, and computational efficiency, thus opening the door for high-quality, flexible, training-free control of diffusion models. Sound examples can be found at https://DITTO-Music.github.io/web/.

DITTO: Otimização T no Tempo de Inferência por Difusão para Geração de Música

DITTO: Diffusion Inference-Time T-Optimization for Music Generation

Resumo

Support