Puppet-Master: Scalabilità della Generazione Video Interattiva come Prior di Movimento per la Dinamica a Livello di Parte
Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics
August 8, 2024
Autori: Ruining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi
cs.AI
Abstract
Presentiamo Puppet-Master, un modello generativo di video interattivo che può fungere da prior di movimento per la dinamica a livello di parti. Durante il test, data una singola immagine e un insieme sparso di traiettorie di movimento (cioè, trascinamenti), Puppet-Master è in grado di sintetizzare un video che rappresenta un movimento realistico a livello di parti, fedele alle interazioni di trascinamento fornite. Questo risultato è ottenuto attraverso il fine-tuning di un modello di diffusione video pre-addestrato su larga scala, per il quale proponiamo una nuova architettura di condizionamento per iniettare efficacemente il controllo del trascinamento. Ancora più importante, introduciamo il meccanismo di attenzione all-to-first, una sostituzione diretta per i moduli di attenzione spaziale ampiamente adottati, che migliora significativamente la qualità della generazione affrontando i problemi di aspetto e sfondo presenti nei modelli esistenti. A differenza di altri generatori di video condizionati al movimento che sono addestrati su video in-the-wild e spostano principalmente un intero oggetto, Puppet-Master è appreso da Objaverse-Animation-HQ, un nuovo dataset di clip di movimento a livello di parti curate. Proponiamo una strategia per filtrare automaticamente le animazioni sub-ottimali e arricchire i rendering sintetici con traiettorie di movimento significative. Puppet-Master generalizza bene a immagini reali in varie categorie e supera i metodi esistenti in modo zero-shot su un benchmark del mondo reale. Per ulteriori risultati, consulta la nostra pagina del progetto: vgg-puppetmaster.github.io.
English
We present Puppet-Master, an interactive video generative model that can
serve as a motion prior for part-level dynamics. At test time, given a single
image and a sparse set of motion trajectories (i.e., drags), Puppet-Master can
synthesize a video depicting realistic part-level motion faithful to the given
drag interactions. This is achieved by fine-tuning a large-scale pre-trained
video diffusion model, for which we propose a new conditioning architecture to
inject the dragging control effectively. More importantly, we introduce the
all-to-first attention mechanism, a drop-in replacement for the widely adopted
spatial attention modules, which significantly improves generation quality by
addressing the appearance and background issues in existing models. Unlike
other motion-conditioned video generators that are trained on in-the-wild
videos and mostly move an entire object, Puppet-Master is learned from
Objaverse-Animation-HQ, a new dataset of curated part-level motion clips. We
propose a strategy to automatically filter out sub-optimal animations and
augment the synthetic renderings with meaningful motion trajectories.
Puppet-Master generalizes well to real images across various categories and
outperforms existing methods in a zero-shot manner on a real-world benchmark.
See our project page for more results: vgg-puppetmaster.github.io.