ChatPaper.aiChatPaper

Puppet-Master: 움직임 우선으로 상호 작용하는 비디오 생성 확장하기 위한 가이드라인

Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics

August 8, 2024
저자: Ruining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi
cs.AI

초록

우리는 부분 수준 역학을 위한 움직임 사전으로 작용할 수 있는 대화형 비디오 생성 모델인 Puppet-Master를 제안합니다. 테스트 시에는 단일 이미지와 희소한 움직임 궤적 세트(즉, 드래그)가 주어지며, Puppet-Master는 주어진 드래그 상호작용에 충실한 현실적인 부분 수준 움직임을 묘사하는 비디오를 합성할 수 있습니다. 이는 대규모 사전 훈련된 비디오 확산 모델을 세밀하게 조정하여 달성되며, 우리는 드래깅 제어를 효과적으로 주입하기 위한 새로운 조건부 아키텍처를 제안합니다. 더 중요한 것은, 기존 모델의 외형 및 배경 문제를 해결함으로써 생성 품질을 크게 향상시키는 널리 사용되는 공간 주의 모듈의 대체품인 all-to-first 주의 메커니즘을 소개합니다. 다른 움직임 조건화 비디오 생성기가 야외 비디오에서 훈련되고 주로 전체 객체를 이동시키는 반면, Puppet-Master는 부분 수준 움직임 클립의 새로운 데이터셋인 Objaverse-Animation-HQ에서 학습됩니다. 우리는 부적절한 애니메이션을 자동으로 걸러내고 의미 있는 움직임 궤적으로 합성 렌더링을 보강하는 전략을 제안합니다. Puppet-Master는 다양한 범주의 실제 이미지에 대해 일반화되며, 실제 세계 벤치마크에서 제로샷 방식으로 기존 방법을 능가합니다. 더 많은 결과를 보려면 프로젝트 페이지를 방문하십시오: vgg-puppetmaster.github.io.
English
We present Puppet-Master, an interactive video generative model that can serve as a motion prior for part-level dynamics. At test time, given a single image and a sparse set of motion trajectories (i.e., drags), Puppet-Master can synthesize a video depicting realistic part-level motion faithful to the given drag interactions. This is achieved by fine-tuning a large-scale pre-trained video diffusion model, for which we propose a new conditioning architecture to inject the dragging control effectively. More importantly, we introduce the all-to-first attention mechanism, a drop-in replacement for the widely adopted spatial attention modules, which significantly improves generation quality by addressing the appearance and background issues in existing models. Unlike other motion-conditioned video generators that are trained on in-the-wild videos and mostly move an entire object, Puppet-Master is learned from Objaverse-Animation-HQ, a new dataset of curated part-level motion clips. We propose a strategy to automatically filter out sub-optimal animations and augment the synthetic renderings with meaningful motion trajectories. Puppet-Master generalizes well to real images across various categories and outperforms existing methods in a zero-shot manner on a real-world benchmark. See our project page for more results: vgg-puppetmaster.github.io.

Summary

AI-Generated Summary

PDF103November 28, 2024