비디오 확산 사전 지식을 활용한 시간적 일관성 있는 비디오 깊이 학습
Learning Temporally Consistent Video Depth from Video Diffusion Priors
June 3, 2024
저자: Jiahao Shao, Yuanbo Yang, Hongyu Zhou, Youmin Zhang, Yujun Shen, Matteo Poggi, Yiyi Liao
cs.AI
초록
본 연구는 비디오 깊이 추정의 과제를 다루며, 이는 단순히 프레임별 정확도뿐만 아니라 더 중요한 프레임 간 일관성을 요구합니다. 처음부터 깊이 추정기를 직접 개발하는 대신, 우리는 예측 작업을 조건부 생성 문제로 재구성합니다. 이를 통해 기존 비디오 생성 모델에 내재된 사전 지식을 활용함으로써 학습 난이도를 줄이고 일반화 능력을 향상시킬 수 있습니다. 구체적으로, 우리는 공개된 Stable Video Diffusion(SVD)을 활용하여 입력 비디오에서 신뢰할 수 있는 깊이를 예측하는 방법을 연구하며, 이를 위해 이미지 깊이와 비디오 깊이 데이터셋의 혼합을 사용합니다. 실험적으로, SVD의 공간적 레이어를 먼저 최적화한 후 시간적 레이어를 최적화하면서 공간적 레이어를 고정하는 절차적 학습 전략이 공간적 정확도와 시간적 일관성 모두에서 최상의 결과를 가져온다는 것을 확인했습니다. 또한, 임의의 길이를 가진 비디오에 대한 추론을 위해 슬라이딩 윈도우 전략을 검토합니다. 우리의 관찰 결과, 효율성과 성능 간의 트레이드오프가 존재하며, 단일 프레임 중첩만으로도 유리한 결과를 얻을 수 있음을 확인했습니다. 광범위한 실험 결과는 우리의 접근 방식인 ChronoDepth가 기존 대안들보다 우수함을 보여주며, 특히 추정된 깊이의 시간적 일관성 측면에서 두드러진 성과를 보입니다. 또한, 더 일관된 비디오 깊이가 깊이 조건 비디오 생성 및 새로운 시점 합성과 같은 두 가지 실제 응용 분야에서 제공하는 이점을 강조합니다. 우리의 프로젝트 페이지는 https://jhaoshao.github.io/ChronoDepth/{this http URL}에서 확인할 수 있습니다.
English
This work addresses the challenge of video depth estimation, which expects
not only per-frame accuracy but, more importantly, cross-frame consistency.
Instead of directly developing a depth estimator from scratch, we reformulate
the prediction task into a conditional generation problem. This allows us to
leverage the prior knowledge embedded in existing video generation models,
thereby reducing learn- ing difficulty and enhancing generalizability.
Concretely, we study how to tame the public Stable Video Diffusion (SVD) to
predict reliable depth from input videos using a mixture of image depth and
video depth datasets. We empirically confirm that a procedural training
strategy - first optimizing the spatial layers of SVD and then optimizing the
temporal layers while keeping the spatial layers frozen - yields the best
results in terms of both spatial accuracy and temporal consistency. We further
examine the sliding window strategy for inference on arbitrarily long videos.
Our observations indicate a trade-off between efficiency and performance, with
a one-frame overlap already producing favorable results. Extensive experimental
results demonstrate the superiority of our approach, termed ChronoDepth, over
existing alternatives, particularly in terms of the temporal consistency of the
estimated depth. Additionally, we highlight the benefits of more consistent
video depth in two practical applications: depth-conditioned video generation
and novel view synthesis. Our project page is available at
https://jhaoshao.github.io/ChronoDepth/{this http URL}.Summary
AI-Generated Summary