ChatPaper.aiChatPaper

Direct-a-Video: 사용자 지정 카메라 이동 및 객체 움직임을 통한 맞춤형 비디오 생성

Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion

February 5, 2024
저자: Shiyuan Yang, Liang Hou, Haibin Huang, Chongyang Ma, Pengfei Wan, Di Zhang, Xiaodong Chen, Jing Liao
cs.AI

초록

최근 텍스트-투-비디오 확산 모델은 인상적인 발전을 이루었습니다. 실제로 사용자들은 맞춤형 비디오 제작을 위해 객체의 움직임과 카메라 이동을 독립적으로 제어할 수 있는 기능을 원하는 경우가 많습니다. 그러나 현재의 방법들은 객체의 움직임과 카메라 이동을 분리된 방식으로 별도로 제어하는 데 초점을 맞추지 않아 텍스트-투-비디오 모델의 제어 가능성과 유연성이 제한됩니다. 본 논문에서는 사용자가 하나 이상의 객체와/또는 카메라 이동에 대한 움직임을 독립적으로 지정할 수 있는 Direct-a-Video 시스템을 소개합니다. 마치 비디오를 연출하듯이 말이죠. 우리는 객체의 움직임과 카메라 이동을 분리하여 제어하기 위한 간단하면서도 효과적인 전략을 제안합니다. 객체의 움직임은 모델의 내재된 사전 지식을 활용한 공간적 교차 주의력 변조를 통해 제어되며, 추가적인 최적화가 필요하지 않습니다. 카메라 이동의 경우, 우리는 정량적인 카메라 이동 매개변수를 해석하기 위해 새로운 시간적 교차 주의력 레이어를 도입했습니다. 또한, 우리는 소규모 데이터셋에서 이러한 레이어를 자기 지도 방식으로 학습하기 위해 증강 기반 접근법을 사용하여 명시적인 움직임 주석의 필요성을 없앴습니다. 두 구성 요소는 독립적으로 작동하여 개별적 또는 결합된 제어가 가능하며, 개방형 도메인 시나리오로 일반화할 수 있습니다. 광범위한 실험을 통해 우리 방법의 우수성과 효과성을 입증했습니다. 프로젝트 페이지: https://direct-a-video.github.io/.
English
Recent text-to-video diffusion models have achieved impressive progress. In practice, users often desire the ability to control object motion and camera movement independently for customized video creation. However, current methods lack the focus on separately controlling object motion and camera movement in a decoupled manner, which limits the controllability and flexibility of text-to-video models. In this paper, we introduce Direct-a-Video, a system that allows users to independently specify motions for one or multiple objects and/or camera movements, as if directing a video. We propose a simple yet effective strategy for the decoupled control of object motion and camera movement. Object motion is controlled through spatial cross-attention modulation using the model's inherent priors, requiring no additional optimization. For camera movement, we introduce new temporal cross-attention layers to interpret quantitative camera movement parameters. We further employ an augmentation-based approach to train these layers in a self-supervised manner on a small-scale dataset, eliminating the need for explicit motion annotation. Both components operate independently, allowing individual or combined control, and can generalize to open-domain scenarios. Extensive experiments demonstrate the superiority and effectiveness of our method. Project page: https://direct-a-video.github.io/.
PDF191December 15, 2024