시간과 공간의 탐색적 중간 프레임 생성
Explorative Inbetweening of Time and Space
March 21, 2024
저자: Haiwen Feng, Zheng Ding, Zhihao Xia, Simon Niklaus, Victoria Abrevaya, Michael J. Black, Xuaner Zhang
cs.AI
초록
우리는 비디오 생성을 제어하여 주어진 시작 프레임과 종료 프레임만을 기반으로 임의의 카메라 및 피사체 움직임을 합성하는 일반화된 작업으로서 경계 생성(bounded generation)을 소개합니다. 우리의 목표는 원본 모델의 추가 학습이나 미세 조정 없이 이미지-투-비디오 모델의 내재된 일반화 능력을 최대한 활용하는 것입니다. 이를 위해 우리는 시간 역방향 융합(Time Reversal Fusion)이라는 새로운 샘플링 전략을 제안합니다. 이 전략은 시작 프레임과 종료 프레임에 각각 조건화된 시간적 순방향 및 역방향 디노이징 경로를 융합합니다. 융합된 경로는 두 프레임을 부드럽게 연결하는 비디오를 생성하며, 이는 충실한 피사체 움직임의 중간 프레임 생성, 정적 장면의 새로운 시점, 그리고 두 경계 프레임이 동일할 때 원활한 비디오 루핑을 가능하게 합니다. 우리는 다양한 이미지 쌍으로 구성된 평가 데이터셋을 구축하고 기존의 가장 유사한 방법들과 비교합니다. 시간 역방향 융합은 모든 하위 작업에서 관련 연구를 능가하며, 경계 프레임에 의해 유도된 복잡한 움직임과 3D 일관성 있는 시점을 생성할 수 있는 능력을 보여줍니다. 프로젝트 페이지는 https://time-reversal.github.io에서 확인할 수 있습니다.
English
We introduce bounded generation as a generalized task to control video
generation to synthesize arbitrary camera and subject motion based only on a
given start and end frame. Our objective is to fully leverage the inherent
generalization capability of an image-to-video model without additional
training or fine-tuning of the original model. This is achieved through the
proposed new sampling strategy, which we call Time Reversal Fusion, that fuses
the temporally forward and backward denoising paths conditioned on the start
and end frame, respectively. The fused path results in a video that smoothly
connects the two frames, generating inbetweening of faithful subject motion,
novel views of static scenes, and seamless video looping when the two bounding
frames are identical. We curate a diverse evaluation dataset of image pairs and
compare against the closest existing methods. We find that Time Reversal Fusion
outperforms related work on all subtasks, exhibiting the ability to generate
complex motions and 3D-consistent views guided by bounded frames. See project
page at https://time-reversal.github.io.Summary
AI-Generated Summary