Puppet-Master: Масштабирование интерактивной генерации видео как движение приоритета для динамики на уровне частиц

Аннотация

Мы представляем Puppet-Master, интерактивную видео-генеративную модель, которая может служить в качестве движущегося априорного распределения для динамики на уровне частей. На этапе тестирования, учитывая одно изображение и разреженный набор траекторий движения (т.е. перетаскиваний), Puppet-Master может синтезировать видео, изображающее реалистичное движение на уровне частей, верное заданным взаимодействиям перетаскивания. Это достигается путем донастройки крупномасштабной предварительно обученной модели диффузии видео, для которой мы предлагаем новую архитектуру условий для эффективного внедрения управления перетаскиванием. Более того, мы представляем механизм внимания "все-к-первому", замену для широко применяемых модулей пространственного внимания, который значительно улучшает качество генерации, решая проблемы внешнего вида и фона в существующих моделях. В отличие от других видео-генераторов, зависящих от движения, которые обучаются на видеозаписях из реальной жизни и в основном перемещают целый объект, Puppet-Master изучается на наборе данных Objaverse-Animation-HQ, новом наборе отобранных клипов движения на уровне частей. Мы предлагаем стратегию автоматического фильтрования неоптимальных анимаций и дополнения синтетических рендерингов содержательными траекториями движения. Puppet-Master хорошо обобщается на реальные изображения различных категорий и превосходит существующие методы в режиме нулевой настройки на реальном бенчмарке. Дополнительные результаты доступны на нашей странице проекта: vgg-puppetmaster.github.io.

English

We present Puppet-Master, an interactive video generative model that can serve as a motion prior for part-level dynamics. At test time, given a single image and a sparse set of motion trajectories (i.e., drags), Puppet-Master can synthesize a video depicting realistic part-level motion faithful to the given drag interactions. This is achieved by fine-tuning a large-scale pre-trained video diffusion model, for which we propose a new conditioning architecture to inject the dragging control effectively. More importantly, we introduce the all-to-first attention mechanism, a drop-in replacement for the widely adopted spatial attention modules, which significantly improves generation quality by addressing the appearance and background issues in existing models. Unlike other motion-conditioned video generators that are trained on in-the-wild videos and mostly move an entire object, Puppet-Master is learned from Objaverse-Animation-HQ, a new dataset of curated part-level motion clips. We propose a strategy to automatically filter out sub-optimal animations and augment the synthetic renderings with meaningful motion trajectories. Puppet-Master generalizes well to real images across various categories and outperforms existing methods in a zero-shot manner on a real-world benchmark. See our project page for more results: vgg-puppetmaster.github.io.

Puppet-Master: Масштабирование интерактивной генерации видео как движение приоритета для динамики на уровне частиц

Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics

Аннотация

Support