ChatPaper.aiChatPaper

Puppet-Master : Mise à l'échelle de la génération interactive de vidéos comme priorité de mouvement pour la dynamique au niveau des parties

Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics

August 8, 2024
Auteurs: Ruining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi
cs.AI

Résumé

Nous présentons Puppet-Master, un modèle génératif de vidéo interactif qui peut servir de priorité de mouvement pour la dynamique au niveau des parties. Au moment du test, étant donné une seule image et un ensemble parcimonieux de trajectoires de mouvement (c'est-à-dire des glissements), Puppet-Master peut synthétiser une vidéo représentant un mouvement réaliste au niveau des parties, fidèle aux interactions de glissement données. Cela est réalisé en affinant un modèle de diffusion vidéo pré-entraîné à grande échelle, pour lequel nous proposons une nouvelle architecture de conditionnement pour injecter efficacement le contrôle par glissement. Plus important encore, nous introduisons le mécanisme d'attention all-to-first, un remplacement direct des modules d'attention spatiale largement adoptés, qui améliore significativement la qualité de génération en résolvant les problèmes d'apparence et de fond dans les modèles existants. Contrairement aux autres générateurs de vidéo conditionnés par le mouvement qui sont entraînés sur des vidéos en situation réelle et déplacent principalement un objet entier, Puppet-Master est appris à partir d'Objaverse-Animation-HQ, un nouveau jeu de données de clips de mouvement au niveau des parties soigneusement sélectionnés. Nous proposons une stratégie pour filtrer automatiquement les animations sous-optimales et enrichir les rendus synthétiques avec des trajectoires de mouvement significatives. Puppet-Master généralise bien aux images réelles dans diverses catégories et surpasse les méthodes existantes de manière zero-shot sur un benchmark du monde réel. Consultez notre page de projet pour plus de résultats : vgg-puppetmaster.github.io.
English
We present Puppet-Master, an interactive video generative model that can serve as a motion prior for part-level dynamics. At test time, given a single image and a sparse set of motion trajectories (i.e., drags), Puppet-Master can synthesize a video depicting realistic part-level motion faithful to the given drag interactions. This is achieved by fine-tuning a large-scale pre-trained video diffusion model, for which we propose a new conditioning architecture to inject the dragging control effectively. More importantly, we introduce the all-to-first attention mechanism, a drop-in replacement for the widely adopted spatial attention modules, which significantly improves generation quality by addressing the appearance and background issues in existing models. Unlike other motion-conditioned video generators that are trained on in-the-wild videos and mostly move an entire object, Puppet-Master is learned from Objaverse-Animation-HQ, a new dataset of curated part-level motion clips. We propose a strategy to automatically filter out sub-optimal animations and augment the synthetic renderings with meaningful motion trajectories. Puppet-Master generalizes well to real images across various categories and outperforms existing methods in a zero-shot manner on a real-world benchmark. See our project page for more results: vgg-puppetmaster.github.io.

Summary

AI-Generated Summary

PDF103November 28, 2024