DepthCrafter: 오픈 월드 비디오를 위한 일관된 장거리 깊이 시퀀스 생성
DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos
September 3, 2024
저자: Wenbo Hu, Xiangjun Gao, Xiaoyu Li, Sijie Zhao, Xiaodong Cun, Yong Zhang, Long Quan, Ying Shan
cs.AI
초록
정적 이미지에 대한 단안 심도 추정에서 상당한 발전이 있었지만, 오픈 월드에서 비디오 심도를 추정하는 것은 여전히 어려운 문제입니다. 왜냐하면 오픈 월드 비디오는 콘텐츠, 움직임, 카메라 이동 및 길이가 매우 다양하기 때문입니다. 우리는 DepthCrafter를 제시합니다. 이는 카메라 위치나 광학 흐름과 같은 보조 정보 없이 오픈 월드 비디오를 위한 복잡한 세부 정보를 가진 시간적 일관성 있는 장거리 심도 시퀀스를 생성하는 혁신적인 방법입니다. DepthCrafter는 사전 훈련된 이미지-비디오 확산 모델로부터 비디오-심도 모델을 훈련시켜 오픈 월드 비디오에 대한 일반화 능력을 달성합니다. 이는 우리가 세심하게 설계한 세 단계의 훈련 전략을 통해 컴파일된 쌍을 이룬 비디오-심도 데이터셋으로부터 이루어집니다. 우리의 훈련 방법은 모델이 한 번에 최대 110프레임까지의 가변 길이의 심도 시퀀스를 생성하고 현실적 및 합성 데이터셋으로부터 정확한 심도 세부 정보와 풍부한 콘텐츠 다양성을 확보할 수 있도록 합니다. 또한 우리는 세그먼트별 추정 및 매끄러운 스티칭을 통해 극도로 긴 비디오를 처리하는 추론 전략을 제안합니다. 다양한 데이터셋에 대한 포괄적인 평가 결과, DepthCrafter가 제로샷 설정 하에서 오픈 월드 비디오 심도 추정에서 최첨단 성능을 달성함을 보여줍니다. 더 나아가, DepthCrafter는 심도 기반 시각 효과 및 조건부 비디오 생성을 포함한 다양한 하향 응용 프로그램을 용이하게 합니다.
English
Despite significant advancements in monocular depth estimation for static
images, estimating video depth in the open world remains challenging, since
open-world videos are extremely diverse in content, motion, camera movement,
and length. We present DepthCrafter, an innovative method for generating
temporally consistent long depth sequences with intricate details for
open-world videos, without requiring any supplementary information such as
camera poses or optical flow. DepthCrafter achieves generalization ability to
open-world videos by training a video-to-depth model from a pre-trained
image-to-video diffusion model, through our meticulously designed three-stage
training strategy with the compiled paired video-depth datasets. Our training
approach enables the model to generate depth sequences with variable lengths at
one time, up to 110 frames, and harvest both precise depth details and rich
content diversity from realistic and synthetic datasets. We also propose an
inference strategy that processes extremely long videos through segment-wise
estimation and seamless stitching. Comprehensive evaluations on multiple
datasets reveal that DepthCrafter achieves state-of-the-art performance in
open-world video depth estimation under zero-shot settings. Furthermore,
DepthCrafter facilitates various downstream applications, including depth-based
visual effects and conditional video generation.Summary
AI-Generated Summary