CamViG: 멀티모달 트랜스포머를 활용한 카메라 인식 이미지-비디오 생성
CamViG: Camera Aware Image-to-Video Generation with Multimodal Transformers
May 21, 2024
저자: Andrew Marmon, Grant Schindler, José Lezama, Dan Kondratyuk, Bryan Seybold, Irfan Essa
cs.AI
초록
우리는 비디오 생성 작업을 위해 3D 카메라 모션을 조건 신호로 포함하도록 멀티모달 트랜스포머를 확장합니다. 생성적 비디오 모델은 점점 더 강력해지고 있으며, 이에 따라 이러한 모델의 출력을 제어하는 방법에 대한 연구 노력이 집중되고 있습니다. 우리는 생성된 비디오에 대해 3차원 카메라 움직임의 인코딩을 조건으로 하여 생성적 비디오 방법에 가상 3D 카메라 제어를 추가할 것을 제안합니다. 결과는 (1) 단일 프레임과 카메라 신호로부터 시작하여 비디오 생성 중에 카메라를 성공적으로 제어할 수 있음을 보여주며, (2) 전통적인 컴퓨터 비전 방법을 사용하여 생성된 3D 카메라 경로의 정확성을 입증합니다.
English
We extend multimodal transformers to include 3D camera motion as a
conditioning signal for the task of video generation. Generative video models
are becoming increasingly powerful, thus focusing research efforts on methods
of controlling the output of such models. We propose to add virtual 3D camera
controls to generative video methods by conditioning generated video on an
encoding of three-dimensional camera movement over the course of the generated
video. Results demonstrate that we are (1) able to successfully control the
camera during video generation, starting from a single frame and a camera
signal, and (2) we demonstrate the accuracy of the generated 3D camera paths
using traditional computer vision methods.Summary
AI-Generated Summary