Puppet-Master: Schaalbaarheid van interactieve videogeneratie als bewegingsprior voor dynamiek op deelniveau
Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics
August 8, 2024
Auteurs: Ruining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi
cs.AI
Samenvatting
We presenteren Puppet-Master, een interactief videogeneratief model dat kan dienen als een bewegingsprior voor dynamiek op onderdeelniveau. Tijdens het testen kan Puppet-Master, gegeven een enkele afbeelding en een set van spaarzame bewegingsbanen (d.w.z. slepen), een video genereren die realistische bewegingen op onderdeelniveau weergeeft, trouw aan de gegeven slepinteracties. Dit wordt bereikt door een grootschalig vooraf getraind videodiffusiemodel te finetunen, waarvoor we een nieuwe conditioneringsarchitectuur voorstellen om het slepen effectief te injecteren. Belangrijker nog, we introduceren het all-to-first aandachtmechanisme, een directe vervanging voor de veelgebruikte ruimtelijke aandachtmodules, dat de generatiekwaliteit aanzienlijk verbetert door de problemen met uiterlijk en achtergrond in bestaande modellen aan te pakken. In tegenstelling tot andere bewegingsgeconditioneerde videogeneratoren die getraind zijn op in-the-wild video's en meestal een volledig object verplaatsen, wordt Puppet-Master geleerd van Objaverse-Animation-HQ, een nieuwe dataset van gecureerde bewegingsclips op onderdeelniveau. We stellen een strategie voor om suboptimale animaties automatisch te filteren en de synthetische weergaven aan te vullen met betekenisvolle bewegingsbanen. Puppet-Master generaliseert goed naar echte afbeeldingen in verschillende categorieën en overtreft bestaande methoden op een zero-shot manier op een real-world benchmark. Bekijk onze projectpagina voor meer resultaten: vgg-puppetmaster.github.io.
English
We present Puppet-Master, an interactive video generative model that can
serve as a motion prior for part-level dynamics. At test time, given a single
image and a sparse set of motion trajectories (i.e., drags), Puppet-Master can
synthesize a video depicting realistic part-level motion faithful to the given
drag interactions. This is achieved by fine-tuning a large-scale pre-trained
video diffusion model, for which we propose a new conditioning architecture to
inject the dragging control effectively. More importantly, we introduce the
all-to-first attention mechanism, a drop-in replacement for the widely adopted
spatial attention modules, which significantly improves generation quality by
addressing the appearance and background issues in existing models. Unlike
other motion-conditioned video generators that are trained on in-the-wild
videos and mostly move an entire object, Puppet-Master is learned from
Objaverse-Animation-HQ, a new dataset of curated part-level motion clips. We
propose a strategy to automatically filter out sub-optimal animations and
augment the synthetic renderings with meaningful motion trajectories.
Puppet-Master generalizes well to real images across various categories and
outperforms existing methods in a zero-shot manner on a real-world benchmark.
See our project page for more results: vgg-puppetmaster.github.io.