TweedieMix: 拡散ベースの画像/ビデオ生成のためのマルチコンセプト融合の改善
TweedieMix: Improving Multi-Concept Fusion for Diffusion-based Image/Video Generation
October 8, 2024
著者: Gihyun Kwon, Jong Chul Ye
cs.AI
要旨
テキストから画像やビデオを生成するカスタマイズの進化は著しいものの、複数の個人用コンセプトを効果的に統合した画像やビデオを生成することは依然として難しい課題です。この課題に対処するため、推論フェーズ中にカスタマイズされた拡散モデルを構築するための新しい手法であるTweedieMixを提案します。逆拡散サンプリングの特性を分析することで、当該手法はサンプリングプロセスを2段階に分割します。初期段階では、望ましいターゲットオブジェクトが含まれるように複数のオブジェクト認識サンプリング技術を適用します。後段階では、Tweedieの式を用いて、ノイズの除去された画像空間でカスタムコンセプトの外観を組み合わせます。当該手法により、既存の手法よりも高い忠実度で複数の個人用コンセプトを生成できることが示されています。さらに、当該フレームワークは、画像からビデオへの拡散モデルに容易に拡張でき、複数の個人用コンセプトを特徴とするビデオを生成できます。結果とソースコードは、当該匿名のプロジェクトページに掲載されています。
English
Despite significant advancements in customizing text-to-image and video
generation models, generating images and videos that effectively integrate
multiple personalized concepts remains a challenging task. To address this, we
present TweedieMix, a novel method for composing customized diffusion models
during the inference phase. By analyzing the properties of reverse diffusion
sampling, our approach divides the sampling process into two stages. During the
initial steps, we apply a multiple object-aware sampling technique to ensure
the inclusion of the desired target objects. In the later steps, we blend the
appearances of the custom concepts in the de-noised image space using Tweedie's
formula. Our results demonstrate that TweedieMix can generate multiple
personalized concepts with higher fidelity than existing methods. Moreover, our
framework can be effortlessly extended to image-to-video diffusion models,
enabling the generation of videos that feature multiple personalized concepts.
Results and source code are in our anonymous project page.Summary
AI-Generated Summary