ChatPaper.aiChatPaper

DITTO: 音楽生成のための拡散推論時T最適化

DITTO: Diffusion Inference-Time T-Optimization for Music Generation

January 22, 2024
著者: Zachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas J. Bryan
cs.AI

要旨

我々はDiffusion Inference-Time T-Optimization (DITTO)を提案する。これは、事前学習済みのテキストtoミュージック拡散モデルを推論時に初期ノイズ潜在変数を最適化することで制御するための汎用フレームワークである。本手法は、任意の微分可能な特徴マッチング損失を最適化して目標(スタイル化された)出力を達成するために使用でき、メモリ効率のために勾配チェックポインティングを活用する。我々は、音楽生成における驚くほど幅広い応用例を実証しており、インペインティング、アウトペインティング、ルーピング、および強度、メロディー、音楽構造の制御を、基盤となるモデルを微調整することなく実現している。関連する学習、ガイダンス、最適化ベースの手法と比較した場合、DITTOはほぼ全てのタスクで最先端の性能を達成し、制御性、音質、計算効率において同等のアプローチを上回る結果を示した。これにより、高品質で柔軟な、学習不要の拡散モデル制御の扉が開かれた。音声サンプルはhttps://DITTO-Music.github.io/web/で確認できる。
English
We propose Diffusion Inference-Time T-Optimization (DITTO), a general-purpose frame-work for controlling pre-trained text-to-music diffusion models at inference-time via optimizing initial noise latents. Our method can be used to optimize through any differentiable feature matching loss to achieve a target (stylized) output and leverages gradient checkpointing for memory efficiency. We demonstrate a surprisingly wide-range of applications for music generation including inpainting, outpainting, and looping as well as intensity, melody, and musical structure control - all without ever fine-tuning the underlying model. When we compare our approach against related training, guidance, and optimization-based methods, we find DITTO achieves state-of-the-art performance on nearly all tasks, including outperforming comparable approaches on controllability, audio quality, and computational efficiency, thus opening the door for high-quality, flexible, training-free control of diffusion models. Sound examples can be found at https://DITTO-Music.github.io/web/.
PDF222December 15, 2024