ChatPaper.aiChatPaper

DITTO-2: 음악 생성을 위한 증류된 확산 추론 시점 최적화

DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation

May 30, 2024
저자: Zachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas Bryan
cs.AI

초록

제어 가능한 음악 생성 방법은 인간 중심의 AI 기반 음악 창작에 있어 핵심적이지만, 현재 속도, 품질, 제어 설계 간의 트레이드오프로 인해 제한적입니다. 특히, Diffusion Inference-Time T-optimization(DITTO)은 최첨단 결과를 제공하지만, 실시간보다 10배 이상 느려 실용적인 사용이 제한됩니다. 우리는 Distilled Diffusion Inference-Time T-Optimization(DITTO-2)라는 새로운 방법을 제안하여, 추론 시간 최적화 기반 제어를 가속화하고 음악 인페인팅, 아웃페인팅, 강도, 멜로디, 음악 구조 제어 등 다양한 응용 분야에서 실시간보다 빠른 생성을 가능하게 합니다. 우리의 방법은 (1) 사전 훈련된 확산 모델을 효율적으로 수정된 일관성 또는 일관성 궤적 증류 과정을 통해 빠른 샘플링을 위해 증류하고, (2) 증류된 모델을 사용하여 단일 단계 샘플링을 효율적인 대체 최적화 작업으로 수행하며, (3) 추정된 노이즈 잠재 공간을 사용하여 최종 다단계 샘플링 생성(디코딩)을 실행하여 최고 품질의 빠르고 제어 가능한 생성을 달성합니다. 철저한 평가를 통해, 우리의 방법이 생성 속도를 10-20배 이상 가속화할 뿐만 아니라, 동시에 제어 준수도와 생성 품질을 모두 개선함을 확인했습니다. 더 나아가, 우리는 텍스트 준수도(CLAP 점수)를 극대화하는 새로운 응용 분야에 우리의 접근 방식을 적용하고, 텍스트 입력이 없는 무조건적 확산 모델을 최첨단 텍스트 제어를 제공하는 모델로 변환할 수 있음을 보여줍니다. 음향 예제는 https://ditto-music.github.io/ditto2/에서 확인할 수 있습니다.
English
Controllable music generation methods are critical for human-centered AI-based music creation, but are currently limited by speed, quality, and control design trade-offs. Diffusion Inference-Time T-optimization (DITTO), in particular, offers state-of-the-art results, but is over 10x slower than real-time, limiting practical use. We propose Distilled Diffusion Inference-Time T -Optimization (or DITTO-2), a new method to speed up inference-time optimization-based control and unlock faster-than-real-time generation for a wide-variety of applications such as music inpainting, outpainting, intensity, melody, and musical structure control. Our method works by (1) distilling a pre-trained diffusion model for fast sampling via an efficient, modified consistency or consistency trajectory distillation process (2) performing inference-time optimization using our distilled model with one-step sampling as an efficient surrogate optimization task and (3) running a final multi-step sampling generation (decoding) using our estimated noise latents for best-quality, fast, controllable generation. Through thorough evaluation, we find our method not only speeds up generation over 10-20x, but simultaneously improves control adherence and generation quality all at once. Furthermore, we apply our approach to a new application of maximizing text adherence (CLAP score) and show we can convert an unconditional diffusion model without text inputs into a model that yields state-of-the-art text control. Sound examples can be found at https://ditto-music.github.io/ditto2/.

Summary

AI-Generated Summary

PDF110December 12, 2024