Puppet-Master: Масштабирование интерактивной генерации видео как движение приоритета для динамики на уровне частиц
Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics
August 8, 2024
Авторы: Ruining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi
cs.AI
Аннотация
Мы представляем Puppet-Master, интерактивную видео-генеративную модель, которая может служить в качестве движущегося априорного распределения для динамики на уровне частей. На этапе тестирования, учитывая одно изображение и разреженный набор траекторий движения (т.е. перетаскиваний), Puppet-Master может синтезировать видео, изображающее реалистичное движение на уровне частей, верное заданным взаимодействиям перетаскивания. Это достигается путем донастройки крупномасштабной предварительно обученной модели диффузии видео, для которой мы предлагаем новую архитектуру условий для эффективного внедрения управления перетаскиванием. Более того, мы представляем механизм внимания "все-к-первому", замену для широко применяемых модулей пространственного внимания, который значительно улучшает качество генерации, решая проблемы внешнего вида и фона в существующих моделях. В отличие от других видео-генераторов, зависящих от движения, которые обучаются на видеозаписях из реальной жизни и в основном перемещают целый объект, Puppet-Master изучается на наборе данных Objaverse-Animation-HQ, новом наборе отобранных клипов движения на уровне частей. Мы предлагаем стратегию автоматического фильтрования неоптимальных анимаций и дополнения синтетических рендерингов содержательными траекториями движения. Puppet-Master хорошо обобщается на реальные изображения различных категорий и превосходит существующие методы в режиме нулевой настройки на реальном бенчмарке. Дополнительные результаты доступны на нашей странице проекта: vgg-puppetmaster.github.io.
English
We present Puppet-Master, an interactive video generative model that can
serve as a motion prior for part-level dynamics. At test time, given a single
image and a sparse set of motion trajectories (i.e., drags), Puppet-Master can
synthesize a video depicting realistic part-level motion faithful to the given
drag interactions. This is achieved by fine-tuning a large-scale pre-trained
video diffusion model, for which we propose a new conditioning architecture to
inject the dragging control effectively. More importantly, we introduce the
all-to-first attention mechanism, a drop-in replacement for the widely adopted
spatial attention modules, which significantly improves generation quality by
addressing the appearance and background issues in existing models. Unlike
other motion-conditioned video generators that are trained on in-the-wild
videos and mostly move an entire object, Puppet-Master is learned from
Objaverse-Animation-HQ, a new dataset of curated part-level motion clips. We
propose a strategy to automatically filter out sub-optimal animations and
augment the synthetic renderings with meaningful motion trajectories.
Puppet-Master generalizes well to real images across various categories and
outperforms existing methods in a zero-shot manner on a real-world benchmark.
See our project page for more results: vgg-puppetmaster.github.io.Summary
AI-Generated Summary