Puppet-Master: Schaalbaarheid van interactieve videogeneratie als bewegingsprior voor dynamiek op deelniveau

Samenvatting

We presenteren Puppet-Master, een interactief videogeneratief model dat kan dienen als een bewegingsprior voor dynamiek op onderdeelniveau. Tijdens het testen kan Puppet-Master, gegeven een enkele afbeelding en een set van spaarzame bewegingsbanen (d.w.z. slepen), een video genereren die realistische bewegingen op onderdeelniveau weergeeft, trouw aan de gegeven slepinteracties. Dit wordt bereikt door een grootschalig vooraf getraind videodiffusiemodel te finetunen, waarvoor we een nieuwe conditioneringsarchitectuur voorstellen om het slepen effectief te injecteren. Belangrijker nog, we introduceren het all-to-first aandachtmechanisme, een directe vervanging voor de veelgebruikte ruimtelijke aandachtmodules, dat de generatiekwaliteit aanzienlijk verbetert door de problemen met uiterlijk en achtergrond in bestaande modellen aan te pakken. In tegenstelling tot andere bewegingsgeconditioneerde videogeneratoren die getraind zijn op in-the-wild video's en meestal een volledig object verplaatsen, wordt Puppet-Master geleerd van Objaverse-Animation-HQ, een nieuwe dataset van gecureerde bewegingsclips op onderdeelniveau. We stellen een strategie voor om suboptimale animaties automatisch te filteren en de synthetische weergaven aan te vullen met betekenisvolle bewegingsbanen. Puppet-Master generaliseert goed naar echte afbeeldingen in verschillende categorieën en overtreft bestaande methoden op een zero-shot manier op een real-world benchmark. Bekijk onze projectpagina voor meer resultaten: vgg-puppetmaster.github.io.

English

We present Puppet-Master, an interactive video generative model that can serve as a motion prior for part-level dynamics. At test time, given a single image and a sparse set of motion trajectories (i.e., drags), Puppet-Master can synthesize a video depicting realistic part-level motion faithful to the given drag interactions. This is achieved by fine-tuning a large-scale pre-trained video diffusion model, for which we propose a new conditioning architecture to inject the dragging control effectively. More importantly, we introduce the all-to-first attention mechanism, a drop-in replacement for the widely adopted spatial attention modules, which significantly improves generation quality by addressing the appearance and background issues in existing models. Unlike other motion-conditioned video generators that are trained on in-the-wild videos and mostly move an entire object, Puppet-Master is learned from Objaverse-Animation-HQ, a new dataset of curated part-level motion clips. We propose a strategy to automatically filter out sub-optimal animations and augment the synthetic renderings with meaningful motion trajectories. Puppet-Master generalizes well to real images across various categories and outperforms existing methods in a zero-shot manner on a real-world benchmark. See our project page for more results: vgg-puppetmaster.github.io.

Puppet-Master: Schaalbaarheid van interactieve videogeneratie als bewegingsprior voor dynamiek op deelniveau

Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics

Samenvatting

Support