Puppet-Master: パートレベルのダイナミクスのためのモーション事前分布としてのインタラクティブなビデオ生成のスケーリング
Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics
August 8, 2024
著者: Ruining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi
cs.AI
要旨
本論文では、パートレベルのダイナミクスに対するモーションプライアとして機能するインタラクティブなビデオ生成モデル「Puppet-Master」を提案します。テスト時には、単一の画像と疎なモーショントラジェクトリ(ドラッグ操作)が与えられると、Puppet-Masterは与えられたドラッグ操作に忠実な現実的なパートレベルの動きを描いたビデオを合成できます。これを実現するために、大規模な事前学習済みビデオ拡散モデルをファインチューニングし、ドラッグ制御を効果的に注入するための新しい条件付けアーキテクチャを提案します。さらに重要なことに、広く採用されている空間的注意モジュールの代替として「all-to-first注意メカニズム」を導入し、既存モデルの外観と背景の問題に対処することで生成品質を大幅に向上させます。他のモーション条件付きビデオ生成器が一般的なビデオで学習され、主にオブジェクト全体を動かすのに対し、Puppet-Masterはキュレーションされたパートレベルモーションクリップの新しいデータセット「Objaverse-Animation-HQ」から学習されます。最適でないアニメーションを自動的にフィルタリングし、意味のあるモーショントラジェクトリで合成レンダリングを拡張する戦略を提案します。Puppet-Masterは、さまざまなカテゴリの実画像にうまく一般化し、実世界のベンチマークにおいて既存の手法をゼロショット方式で上回ります。詳細な結果についてはプロジェクトページをご覧ください:vgg-puppetmaster.github.io。
English
We present Puppet-Master, an interactive video generative model that can
serve as a motion prior for part-level dynamics. At test time, given a single
image and a sparse set of motion trajectories (i.e., drags), Puppet-Master can
synthesize a video depicting realistic part-level motion faithful to the given
drag interactions. This is achieved by fine-tuning a large-scale pre-trained
video diffusion model, for which we propose a new conditioning architecture to
inject the dragging control effectively. More importantly, we introduce the
all-to-first attention mechanism, a drop-in replacement for the widely adopted
spatial attention modules, which significantly improves generation quality by
addressing the appearance and background issues in existing models. Unlike
other motion-conditioned video generators that are trained on in-the-wild
videos and mostly move an entire object, Puppet-Master is learned from
Objaverse-Animation-HQ, a new dataset of curated part-level motion clips. We
propose a strategy to automatically filter out sub-optimal animations and
augment the synthetic renderings with meaningful motion trajectories.
Puppet-Master generalizes well to real images across various categories and
outperforms existing methods in a zero-shot manner on a real-world benchmark.
See our project page for more results: vgg-puppetmaster.github.io.Summary
AI-Generated Summary