ChatPaper.aiChatPaper

Puppet-Master: Escalando la Generación Interactiva de Video como un Prior de Movimiento para la Dinámica a Nivel de Partes

Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics

August 8, 2024
Autores: Ruining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi
cs.AI

Resumen

Presentamos Puppet-Master, un modelo generativo de video interactivo que puede servir como un prior de movimiento para la dinámica a nivel de partes. En el momento de prueba, dado una única imagen y un conjunto disperso de trayectorias de movimiento (es decir, arrastres), Puppet-Master puede sintetizar un video que representa un movimiento realista a nivel de partes fiel a las interacciones de arrastre proporcionadas. Esto se logra mediante el ajuste fino de un modelo de difusión de video pre-entrenado a gran escala, para el cual proponemos una nueva arquitectura de condicionamiento para inyectar el control de arrastre de manera efectiva. Más importante aún, introducimos el mecanismo de atención de todos a uno, un reemplazo directo para los módulos de atención espacial ampliamente adoptados, que mejora significativamente la calidad de generación al abordar los problemas de apariencia y fondo en los modelos existentes. A diferencia de otros generadores de video condicionados por movimiento que son entrenados en videos de la vida real y principalmente mueven un objeto completo, Puppet-Master se aprende a partir de Objaverse-Animation-HQ, un nuevo conjunto de datos de clips de movimiento a nivel de partes seleccionados. Proponemos una estrategia para filtrar automáticamente animaciones subóptimas y aumentar las representaciones sintéticas con trayectorias de movimiento significativas. Puppet-Master generaliza bien a imágenes reales en diversas categorías y supera a los métodos existentes de manera de cero disparos en un banco de pruebas del mundo real. Consulte nuestra página del proyecto para más resultados: vgg-puppetmaster.github.io.
English
We present Puppet-Master, an interactive video generative model that can serve as a motion prior for part-level dynamics. At test time, given a single image and a sparse set of motion trajectories (i.e., drags), Puppet-Master can synthesize a video depicting realistic part-level motion faithful to the given drag interactions. This is achieved by fine-tuning a large-scale pre-trained video diffusion model, for which we propose a new conditioning architecture to inject the dragging control effectively. More importantly, we introduce the all-to-first attention mechanism, a drop-in replacement for the widely adopted spatial attention modules, which significantly improves generation quality by addressing the appearance and background issues in existing models. Unlike other motion-conditioned video generators that are trained on in-the-wild videos and mostly move an entire object, Puppet-Master is learned from Objaverse-Animation-HQ, a new dataset of curated part-level motion clips. We propose a strategy to automatically filter out sub-optimal animations and augment the synthetic renderings with meaningful motion trajectories. Puppet-Master generalizes well to real images across various categories and outperforms existing methods in a zero-shot manner on a real-world benchmark. See our project page for more results: vgg-puppetmaster.github.io.

Summary

AI-Generated Summary

PDF103November 28, 2024