DITTO: 음악 생성을 위한 확산 추론 시점 최적화
DITTO: Diffusion Inference-Time T-Optimization for Music Generation
January 22, 2024
저자: Zachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas J. Bryan
cs.AI
초록
우리는 사전 학습된 텍스트-투-뮤직 확산 모델을 추론 시점에서 초기 노이즈 잠재 변수를 최적화함으로써 제어할 수 있는 일반 목적 프레임워크인 Diffusion Inference-Time T-Optimization (DITTO)를 제안한다. 우리의 방법은 미분 가능한 특징 매칭 손실을 통해 목표(스타일화된) 출력을 달성하기 위해 최적화할 수 있으며, 메모리 효율성을 위해 그래디언트 체크포인팅을 활용한다. 우리는 인페인팅, 아웃페인팅, 루핑뿐만 아니라 강도, 멜로디, 음악적 구조 제어를 포함한 음악 생성의 놀라울 정도로 다양한 응용 사례를 보여준다. 이 모든 것이 기본 모델을 미세 조정하지 않고도 가능하다. 우리는 관련된 학습, 가이던스, 최적화 기반 방법들과 우리의 접근법을 비교했을 때, DITTO가 거의 모든 작업에서 최첨단 성능을 달성하며, 제어 가능성, 오디오 품질, 계산 효율성 면에서 유사한 접근법들을 능가함을 발견했다. 이는 확산 모델에 대한 고품질의 유연한 학습 없는 제어의 가능성을 열어준다. 음향 예제는 https://DITTO-Music.github.io/web/에서 확인할 수 있다.
English
We propose Diffusion Inference-Time T-Optimization (DITTO), a general-purpose
frame-work for controlling pre-trained text-to-music diffusion models at
inference-time via optimizing initial noise latents. Our method can be used to
optimize through any differentiable feature matching loss to achieve a target
(stylized) output and leverages gradient checkpointing for memory efficiency.
We demonstrate a surprisingly wide-range of applications for music generation
including inpainting, outpainting, and looping as well as intensity, melody,
and musical structure control - all without ever fine-tuning the underlying
model. When we compare our approach against related training, guidance, and
optimization-based methods, we find DITTO achieves state-of-the-art performance
on nearly all tasks, including outperforming comparable approaches on
controllability, audio quality, and computational efficiency, thus opening the
door for high-quality, flexible, training-free control of diffusion models.
Sound examples can be found at https://DITTO-Music.github.io/web/.