MagicComp: 構成ビデオ生成のためのトレーニング不要な二段階リファインメント
MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation
March 18, 2025
著者: Hongyu Zhang, Yufan Deng, Shenghai Yuan, Peng Jin, Zesen Cheng, Yian Zhao, Chang Liu, Jie Chen
cs.AI
要旨
テキストからビデオ(T2V)生成は、拡散モデルの進展により大きな進歩を遂げてきました。しかし、既存の手法では、属性の正確な紐付け、空間関係の決定、複数の主体間の複雑な動作相互作用の捕捉に依然として苦戦しています。これらの課題を解決するため、我々はMagicCompを提案します。これは、デュアルフェーズの精緻化を通じて、構成要素を強化したT2V生成を実現するトレーニング不要の手法です。具体的には、(1) 条件付け段階において、セマンティックアンカーの方向ベクトルを元のテキスト埋め込みに段階的に注入することで、主体固有の意味を強化し、主体間の曖昧さを解消する「セマンティックアンカー曖昧性解消」を導入します。(2) ノイズ除去段階において、グラウンディング事前情報とモデル適応型空間知覚を統合し、マスクされたアテンションモジュレーションを通じて主体をその時空間領域に柔軟に紐付ける「ダイナミックレイアウト融合アテンション」を提案します。さらに、MagicCompはモデルに依存しない汎用的なアプローチであり、既存のT2Vアーキテクチャにシームレスに統合可能です。T2V-CompBenchとVBenchでの広範な実験により、MagicCompが最先端の手法を凌駕することが示され、複雑なプロンプトベースや軌道制御可能なビデオ生成などの応用における潜在能力が強調されました。プロジェクトページ: https://hong-yu-zhang.github.io/MagicComp-Page/。
English
Text-to-video (T2V) generation has made significant strides with diffusion
models. However, existing methods still struggle with accurately binding
attributes, determining spatial relationships, and capturing complex action
interactions between multiple subjects. To address these limitations, we
propose MagicComp, a training-free method that enhances compositional T2V
generation through dual-phase refinement. Specifically, (1) During the
Conditioning Stage: We introduce the Semantic Anchor Disambiguation to
reinforces subject-specific semantics and resolve inter-subject ambiguity by
progressively injecting the directional vectors of semantic anchors into
original text embedding; (2) During the Denoising Stage: We propose Dynamic
Layout Fusion Attention, which integrates grounding priors and model-adaptive
spatial perception to flexibly bind subjects to their spatiotemporal regions
through masked attention modulation. Furthermore, MagicComp is a model-agnostic
and versatile approach, which can be seamlessly integrated into existing T2V
architectures. Extensive experiments on T2V-CompBench and VBench demonstrate
that MagicComp outperforms state-of-the-art methods, highlighting its potential
for applications such as complex prompt-based and trajectory-controllable video
generation. Project page: https://hong-yu-zhang.github.io/MagicComp-Page/.Summary
AI-Generated Summary