Mestre de Marionetes: Dimensionando a Geração de Vídeo Interativo como um Prévio de Movimento para a Dinâmica em Nível de Partes
Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics
August 8, 2024
Autores: Ruining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi
cs.AI
Resumo
Apresentamos o Puppet-Master, um modelo generativo de vídeo interativo que pode servir como um movimento prévio para a dinâmica em nível de partes. No momento do teste, dado uma única imagem e um conjunto esparsa de trajetórias de movimento (ou seja, arrastos), o Puppet-Master pode sintetizar um vídeo que representa um movimento realista em nível de partes fiel às interações de arrasto fornecidas. Isso é alcançado por meio do ajuste fino de um modelo de difusão de vídeo pré-treinado em larga escala, para o qual propomos uma nova arquitetura de condicionamento para injetar o controle de arrasto de forma eficaz. Mais importante ainda, introduzimos o mecanismo de atenção de todos para o primeiro, uma substituição imediata para os módulos de atenção espacial amplamente adotados, que melhora significativamente a qualidade da geração ao abordar as questões de aparência e de fundo nos modelos existentes. Ao contrário de outros geradores de vídeo condicionados ao movimento que são treinados em vídeos do mundo real e movem principalmente um objeto inteiro, o Puppet-Master é aprendido a partir do Objaverse-Animation-HQ, um novo conjunto de dados de clipes de movimento em nível de partes selecionados. Propomos uma estratégia para filtrar automaticamente animações subótimas e aumentar as renderizações sintéticas com trajetórias de movimento significativas. O Puppet-Master generaliza bem para imagens reais em várias categorias e supera os métodos existentes de forma zero-shot em um benchmark do mundo real. Consulte nossa página do projeto para mais resultados: vgg-puppetmaster.github.io.
English
We present Puppet-Master, an interactive video generative model that can
serve as a motion prior for part-level dynamics. At test time, given a single
image and a sparse set of motion trajectories (i.e., drags), Puppet-Master can
synthesize a video depicting realistic part-level motion faithful to the given
drag interactions. This is achieved by fine-tuning a large-scale pre-trained
video diffusion model, for which we propose a new conditioning architecture to
inject the dragging control effectively. More importantly, we introduce the
all-to-first attention mechanism, a drop-in replacement for the widely adopted
spatial attention modules, which significantly improves generation quality by
addressing the appearance and background issues in existing models. Unlike
other motion-conditioned video generators that are trained on in-the-wild
videos and mostly move an entire object, Puppet-Master is learned from
Objaverse-Animation-HQ, a new dataset of curated part-level motion clips. We
propose a strategy to automatically filter out sub-optimal animations and
augment the synthetic renderings with meaningful motion trajectories.
Puppet-Master generalizes well to real images across various categories and
outperforms existing methods in a zero-shot manner on a real-world benchmark.
See our project page for more results: vgg-puppetmaster.github.io.Summary
AI-Generated Summary