DVD: 생성적 사전 지식을 활용한 결정론적 비디오 깊이 추정
DVD: Deterministic Video Depth Estimation with Generative Priors
March 12, 2026
저자: Hongfei Zhang, Harold Haodong Chen, Chenfei Liao, Jing He, Zixin Zhang, Haodong Li, Yihao Liang, Kanghao Chen, Bin Ren, Xu Zheng, Shuai Yang, Kun Zhou, Yinchuan Li, Nicu Sebe, Ying-Cong Chen
cs.AI
초록
기존 비디오 깊이 추정은 근본적인 딜레마에 직면해 있습니다: 생성 모델은 확률적 기하학적 환각과 스케일 드리프트 문제를 겪는 반면, 판별 모델은 의미론적 모호성을 해결하기 위해 방대한 레이블 데이터셋을 요구합니다. 이러한 교착 상태를 타개하기 위해 우리는 사전 학습된 비디오 확산 모델을 단일 패스 깊이 회귀 분석기로 결정론적으로 변환하는 최초의 프레임워크인 DVD를 제안합니다. 구체적으로 DVD는 세 가지 핵심 설계를 특징으로 합니다: (i) 확산 타임스텝을 구조적 앵커로 재구성하여 전역적 안정성과 고주파 세부 사항 간의 균형을 유지하는 것, (ii) 회귀 분석으로 인한 과도한 평활화를 완화하고 미분 제약 조건을 적용하여 선명한 경계와 일관된 운동을 복원하는 잠재 공간 정규화(LMR), (iii) 창간 발산을 제한하는 내재적 속성인 전역 아핀 일관성으로, 복잡한 시간 정렬 없이도 원활한 장기간 비디오 추론을 가능하게 합니다. 광범위한 실험을 통해 DVD가 벤치마크 전반에서 최첨단 제로샷 성능을 달성함을 입증했습니다. 더 나아가 DVD는 최고 수준의 기준 모델 대비 163배 적은 작업 특화 데이터를 사용하여 비디오 파운데이션 모델에 내재된 심오한 기하학적 사전 지식을 성공적으로 활용합니다. 특히, 우리는 오픈소스 커뮤니티에 기여하기 위해 SOTA 비디오 깊이 추정을 위한 전체 학습 도구를 포함한 파이프라인을 완전히 공개합니다.
English
Existing video depth estimation faces a fundamental trade-off: generative models suffer from stochastic geometric hallucinations and scale drift, while discriminative models demand massive labeled datasets to resolve semantic ambiguities. To break this impasse, we present DVD, the first framework to deterministically adapt pre-trained video diffusion models into single-pass depth regressors. Specifically, DVD features three core designs: (i) repurposing the diffusion timestep as a structural anchor to balance global stability with high-frequency details; (ii) latent manifold rectification (LMR) to mitigate regression-induced over-smoothing, enforcing differential constraints to restore sharp boundaries and coherent motion; and (iii) global affine coherence, an inherent property bounding inter-window divergence, which enables seamless long-video inference without requiring complex temporal alignment. Extensive experiments demonstrate that DVD achieves state-of-the-art zero-shot performance across benchmarks. Furthermore, DVD successfully unlocks the profound geometric priors implicit in video foundation models using 163x less task-specific data than leading baselines. Notably, we fully release our pipeline, providing the whole training suite for SOTA video depth estimation to benefit the open-source community.