Puppet-Master: Skalierung der interaktiven Videogenerierung als Bewegungspriorisierung für Teilniveau-Dynamik
Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics
August 8, 2024
papers.authors: Ruining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi
cs.AI
papers.abstract
Wir präsentieren Puppet-Master, ein interaktives Video-generatives Modell, das als Bewegungsprior für Teilniveau-Dynamik dienen kann. Zur Testzeit kann Puppet-Master, basierend auf einem einzelnen Bild und einer spärlichen Menge von Bewegungstrajectories (d. h. Ziehungen), ein Video synthetisieren, das realistische Teilniveau-Bewegungen darstellt, die den gegebenen Ziehinteraktionen treu bleiben. Dies wird durch Feinabstimmung eines groß angelegten, vorab trainierten Video-Diffusionsmodells erreicht, für das wir eine neue Konditionierungsarchitektur vorschlagen, um die Ziehsteuerung effektiv einzuspeisen. Darüber hinaus führen wir den All-to-First-Aufmerksamkeitsmechanismus ein, einen austauschbaren Ersatz für die weit verbreiteten räumlichen Aufmerksamkeitsmodule, der die Generierungsqualität signifikant verbessert, indem er Erscheinungs- und Hintergrundprobleme in bestehenden Modellen angeht. Im Gegensatz zu anderen bewegungsbedingten Video-Generatoren, die auf Videos aus freier Wildbahn trainiert sind und größtenteils ein ganzes Objekt bewegen, wird Puppet-Master aus Objaverse-Animation-HQ gelernt, einem neuen Datensatz kuratierter Teilniveau-Bewegungsclips. Wir schlagen eine Strategie vor, um automatisch suboptimale Animationen herauszufiltern und die synthetischen Renderings mit sinnvollen Bewegungstrajectories zu ergänzen. Puppet-Master generalisiert gut auf echte Bilder in verschiedenen Kategorien und übertrifft bestehende Methoden auf einem realen Benchmark auf eine Null-Schuss-Art und Weise. Weitere Ergebnisse finden Sie auf unserer Projektseite: vgg-puppetmaster.github.io.
English
We present Puppet-Master, an interactive video generative model that can
serve as a motion prior for part-level dynamics. At test time, given a single
image and a sparse set of motion trajectories (i.e., drags), Puppet-Master can
synthesize a video depicting realistic part-level motion faithful to the given
drag interactions. This is achieved by fine-tuning a large-scale pre-trained
video diffusion model, for which we propose a new conditioning architecture to
inject the dragging control effectively. More importantly, we introduce the
all-to-first attention mechanism, a drop-in replacement for the widely adopted
spatial attention modules, which significantly improves generation quality by
addressing the appearance and background issues in existing models. Unlike
other motion-conditioned video generators that are trained on in-the-wild
videos and mostly move an entire object, Puppet-Master is learned from
Objaverse-Animation-HQ, a new dataset of curated part-level motion clips. We
propose a strategy to automatically filter out sub-optimal animations and
augment the synthetic renderings with meaningful motion trajectories.
Puppet-Master generalizes well to real images across various categories and
outperforms existing methods in a zero-shot manner on a real-world benchmark.
See our project page for more results: vgg-puppetmaster.github.io.