Puppet-Master : Mise à l'échelle de la génération interactive de vidéos comme priorité de mouvement pour la dynamique au niveau des parties
Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics
August 8, 2024
Auteurs: Ruining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi
cs.AI
Résumé
Nous présentons Puppet-Master, un modèle génératif de vidéo interactif qui peut servir de priorité de mouvement pour la dynamique au niveau des parties. Au moment du test, étant donné une seule image et un ensemble parcimonieux de trajectoires de mouvement (c'est-à-dire des glissements), Puppet-Master peut synthétiser une vidéo représentant un mouvement réaliste au niveau des parties, fidèle aux interactions de glissement données. Cela est réalisé en affinant un modèle de diffusion vidéo pré-entraîné à grande échelle, pour lequel nous proposons une nouvelle architecture de conditionnement pour injecter efficacement le contrôle par glissement. Plus important encore, nous introduisons le mécanisme d'attention all-to-first, un remplacement direct des modules d'attention spatiale largement adoptés, qui améliore significativement la qualité de génération en résolvant les problèmes d'apparence et de fond dans les modèles existants. Contrairement aux autres générateurs de vidéo conditionnés par le mouvement qui sont entraînés sur des vidéos en situation réelle et déplacent principalement un objet entier, Puppet-Master est appris à partir d'Objaverse-Animation-HQ, un nouveau jeu de données de clips de mouvement au niveau des parties soigneusement sélectionnés. Nous proposons une stratégie pour filtrer automatiquement les animations sous-optimales et enrichir les rendus synthétiques avec des trajectoires de mouvement significatives. Puppet-Master généralise bien aux images réelles dans diverses catégories et surpasse les méthodes existantes de manière zero-shot sur un benchmark du monde réel. Consultez notre page de projet pour plus de résultats : vgg-puppetmaster.github.io.
English
We present Puppet-Master, an interactive video generative model that can
serve as a motion prior for part-level dynamics. At test time, given a single
image and a sparse set of motion trajectories (i.e., drags), Puppet-Master can
synthesize a video depicting realistic part-level motion faithful to the given
drag interactions. This is achieved by fine-tuning a large-scale pre-trained
video diffusion model, for which we propose a new conditioning architecture to
inject the dragging control effectively. More importantly, we introduce the
all-to-first attention mechanism, a drop-in replacement for the widely adopted
spatial attention modules, which significantly improves generation quality by
addressing the appearance and background issues in existing models. Unlike
other motion-conditioned video generators that are trained on in-the-wild
videos and mostly move an entire object, Puppet-Master is learned from
Objaverse-Animation-HQ, a new dataset of curated part-level motion clips. We
propose a strategy to automatically filter out sub-optimal animations and
augment the synthetic renderings with meaningful motion trajectories.
Puppet-Master generalizes well to real images across various categories and
outperforms existing methods in a zero-shot manner on a real-world benchmark.
See our project page for more results: vgg-puppetmaster.github.io.Summary
AI-Generated Summary