ChatPaper.aiChatPaper

DVD: Estimação Determinística de Profundidade em Vídeo com Priors Generativos

DVD: Deterministic Video Depth Estimation with Generative Priors

March 12, 2026
Autores: Hongfei Zhang, Harold Haodong Chen, Chenfei Liao, Jing He, Zixin Zhang, Haodong Li, Yihao Liang, Kanghao Chen, Bin Ren, Xu Zheng, Shuai Yang, Kun Zhou, Yinchuan Li, Nicu Sebe, Ying-Cong Chen
cs.AI

Resumo

A estimação de profundidade em vídeos enfrenta um dilema fundamental: os modelos generativos sofrem com alucinações geométricas estocásticas e deriva de escala, enquanto os modelos discriminativos exigem conjuntos massivos de dados rotulados para resolver ambiguidades semânticas. Para superar este impasse, apresentamos o DVD, o primeiro framework que adapta deterministicamente modelos de difusão de vídeo pré-treinados em regressores de profundidade de passagem única. Especificamente, o DVD apresenta três concepções centrais: (i) a reutilização do passo de difusão como uma âncora estrutural para equilibrar estabilidade global com detalhes de alta frequência; (ii) a retificação da variedade latente (LMR) para mitigar o excesso de suavização induzido pela regressão, aplicando restrições diferenciais para restaurar limites nítidos e movimento coerente; e (iii) a coerência afim global, uma propriedade inerente que limita a divergência entre janelas, permitindo inferência em vídeos longos sem a necessidade de um complexo alinhamento temporal. Experimentos extensivos demonstram que o DVD alcança desempenho state-of-the-art em avaliação zero-shot em diversos benchmarks. Adicionalmente, o DVD desbloqueia com sucesso os profundos priores geométricos implícitos em modelos de fundação para vídeo, utilizando 163 vezes menos dados específicos da tarefa do que os principais métodos de comparação. Notavelmente, disponibilizamos integralmente nosso pipeline, fornecendo todo o conjunto de treinamento para estimação de profundidade em vídeo de última geração para beneficiar a comunidade de código aberto.
English
Existing video depth estimation faces a fundamental trade-off: generative models suffer from stochastic geometric hallucinations and scale drift, while discriminative models demand massive labeled datasets to resolve semantic ambiguities. To break this impasse, we present DVD, the first framework to deterministically adapt pre-trained video diffusion models into single-pass depth regressors. Specifically, DVD features three core designs: (i) repurposing the diffusion timestep as a structural anchor to balance global stability with high-frequency details; (ii) latent manifold rectification (LMR) to mitigate regression-induced over-smoothing, enforcing differential constraints to restore sharp boundaries and coherent motion; and (iii) global affine coherence, an inherent property bounding inter-window divergence, which enables seamless long-video inference without requiring complex temporal alignment. Extensive experiments demonstrate that DVD achieves state-of-the-art zero-shot performance across benchmarks. Furthermore, DVD successfully unlocks the profound geometric priors implicit in video foundation models using 163x less task-specific data than leading baselines. Notably, we fully release our pipeline, providing the whole training suite for SOTA video depth estimation to benefit the open-source community.
PDF262March 24, 2026